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图 灵 社 区 的 电子 书 没有 采用 专 有 客 
户 端 ， 您 可 以 在 任意 设备 上 ， 用 自 
己 喜 欢 的 浏览 器 和 PDF 阅读 器 进行 
阅读 。 

但 您 购买 的 电子 书 仅 供 您 个 人 使 用 ， 
未 经 授权 ， 不 得 进行 传播 。 

我 们 愿意 相信 读者 具有 这 样 的 良知 
和 觉悟 ， 与 我 们 共同 保护 知识 产权 。 


如 果 购 买 者 有 侵权 行为 ， 我 们 可 能 
对 该 用 户 实 施 包括 但 不 限于 关闭 该 
帐号 等 维权 措施 ， 并 可 能 追究 法 律 
责任 。 
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内 容 提 要 


本 书 共 分 5 方面 内 容 : 基础 知识 、 关 键 模块 、 算 法 模型 、 内 核 揭 秘 、 生 态 发 展 。 前 两 方面 由 浅 入 深 地 
介绍 了 TensorFlow 平台 ， 算 法 模型 方面 依托 TensorFlow 讲解 深度 学 习 模 型 ， 内 核 揭秘 方面 主要 分 析 C++ 
内 核 中 的 通信 和 原理、 消息 管理 机 制 等 ， 最 后 从 生态 发 展 的 角度 讲解 以 TensorFlow 为 中 心 的 一 套 开源 大 数据 
分 析 解 决 方案 。 

本 书 适合 所 有 对 深度 学 习 和 TensorFlow 感 兴趣 的 开发 人 员 和 数据 分 析 师 阅读 。 
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机 器 学 习 关 注 的 问题 是 如 何 使 用 算法 将 未 经 处 理 的 原始 数据 转化 为 信息 , 进而 转化 为 可 供 决 
策 的 情报 。 这 一 特性 使 得 机 器 学 习 十 分 适用 于 大 数据 预测 分 析 领 域 。 可 以 说 , 没有 机 器 学 习 ， 人 
们 几乎 不 可 能 处 理 和 整合 当今 世界 的 海量 信息 。 另 一 方面 , 深度 学 习 是 机 器 学 习 算 法 的 一 个 分 支 ， 
其 基本 思想 是 学 习 出 多 个 表示 层 ， 作 为 数据 的 模型 。 近 年 来 ， 人 们 设计 并 开发 了 很 多 性 能 强大 的 
深度 学 习 算 法 ,应 用 于 图 像 识别 、 自 然 语言 处 理 等 大 量 复 杂 任 务 。 深 度 学 习 算法 本 质 上 无 非 是 复 
林 神 经 网 络 的 一 种 实现 , 使 其 能 够 通过 对 海量 数据 的 分 析 进 行 学 习 。 本 书 基于 最 新 版 TensorFlow， 
介绍 深度 学 习 中 的 核心 概念 。TensorFlow 是 谷歌 2011 年 发 布 的 一 个 开源 框架 ， 用 于 处 理 数学 、 
机 器 学 习 和 深度 学 习 领 域 的 问题 。 自 发 布 以 来 ，TensorFlow 大 受 欢 迎 ， 广 谤 应 用 于 学 术 界 、 科 研 
领域 乃至 工业 领域 。TensorFlow 版 本 1.0 含 有 统一 的 API, 它 提供 了 恰到好处 的 灵活 性 。 用 户 可 以 
轻松 实现 和 研究 最 前 沿 的 算法 架构 ， 集 中 精力 关注 模型 的 组 织 结构 ， 而 不 用 为 其 中 的 数学 细节 
而 烦恼 。 在 学 习 本 书 的 过 程 中 ， 你 将 通过 建 模 、 数 据 收集 和 转换 等 实际 操作 学 习 深 度 学 习 编程 
技术 。 

祝 阅 读 愉 快 ! 























































































































本 书 内 容 


第 1 章 介 绍 机 器 学 习 和 深度 学 习 的 架构 , 包括 所 谓 的 “深度 神经 网 络 ”。 这 种 神经 网 络 与 普通 
的 单 隐 藏 层 神经 网 络 的 不 同 主要 在 于 其 “深度 ”。 深度” 指 的 是 节点 层 的 数量 ， 也 就 是 说 ， 深 度 
神经 网 络 拥 有 多 个 层 。 在 模式 识别 的 过 程 中 , 数据 需要 依次 通过 这 些 层 。 这 一 章 将 用 一 个 表格 对 
比 各 种 深度 学 习 架 构 的 优 劣 ,其 中 总 结 了 各 种 神经 网 络 模型 ， 大 部 分 深度 学 习 算 法 都 由 这 些 神经 
网 络 模型 发 展 而 来 。 

第 2 章 介绍 TensorFlow 1.x 版 本 的 主要 特性 和 功能 : 计算 图 、 数 据 模型 、 编 程 模型 和 TensorBoard 
可 视 化 模块 等 。 后 半 部 分 实现 一 个 单 输入 神经 元 ， 以 展示 TensorFlow 的 实际 应 用 。 最 后 介绍 如 何 
将 TensorFlow 从 0.x 版 本 升级 到 1.x 版 本 。 

第 3 章 详细 介绍 前 馈 神 经 网 络 的 概念 。 这 一 章 采用 前 馈 神 经 网 络 这 一 基本 架构 实现 诸多 应 用 
范例 ， 具 有 很 强 的 实用 性 。 
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第 4 章 介 绍 基于 深度 学 习 的 图 像 分 类 器 的 基本 构件 一 卷 积 神经 网 络 ( CNN )。 通过 两 个 示例 
实现 ,第 一 个 是 经 典 的 MNIST 数 字 分 类 问题 , 第 二 个 是 基于 一 系列 人 脸 图 像 训练 一 个 网 络 ， 用 来 
对 表情 进行 分 类 。 

第 5 音 展 示 自 编码 器 网 络 的 概念 。 设 计 和 训练 自 编码 器 网 络 的 目的 是 对 输入 模式 进行 转化 ， 
当 输 入 模式 退化 或 不 完整 时 ， 可 以 对 其 进行 补 全 ,获取 原始 模式 。 这 一 章 会 使 用 几 个 示例 介绍 自 
码 器 的 实际 操作 。 
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第 6 章 解 释 循 环 神 经 网 络 这 一 基本 架构 。 循 环 神 经 网 络 用 于 处 理 长 短 不 一 的 数据 ， 在 自然 语 
言 处 理 领域 中 的 应 用 十 分 广泛 。 这 一 章 将 实现 文本 人 处理 和 图 像 分 类 。 
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第 7 章 介 绍 TensorFlow 中 用 于 GPU 计算 的 工具 ,并 探索 TensorFlow 中 处 理 GPU 任 务 的 一 些 
技术 。 
第 8 章 介 绍 几 个 基于 TensorFlow 的 库 : Keras, Pretty Tensor 和 TFLearn。 针 对 每 个 库 介 绍 其 主 
要 特性 ， 并 分 别 给 出 应 用 示例 。 
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第 9 章 涵盖 TensorFlow 多 媒体 编程 的 一 些 高 级 技术 和 新 兴 技 术 。 这 一 章 将 讨论 应 用 于 可 伸缩 
对 象 检 测 的 深度 神经 网 络 ,以 及 Android 系 统 上 的 TensorFlow 深 度 学 习 , 并 给 出 示例 及 代码 。 还 将 
讲解 加 速 线性 代数 (XLA) 及 Keras， 并 使 用 一 些 示 例 使 讨论 更 加 具体 。 
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第 10 章 涵盖 强化 学 习 的 基本 概念 ， 并 介绍 Q-learning 算法 。 该 算法 是 使 用 最 广 的 强化 学 习 算 
法 之 一 。 此 外 还 将 介绍 OpenAIgym 框 架 ， 该 框架 与 TensorFlow 兼 容 ,， 可 作为 强化 学 习 算法 的 开发 
和 对 比 评价 工具 。 











预备 工具 


书 中 所 有 示例 均 采 用 Python 2.7 和 3.5 版 本 实现 ， 操 作 系 统 为 基于 Linux 的 64 位 Ubuntu 系统 , 
TensorFlow 库 版 本 为 1.0.1。 书 中 展示 的 所 有 源 代 码 均 兼容 Python 2.7。 


你 还 需要 安装 以 下 Python 模块 〈 最 好 是 最 新 版 本 ): 






































口 Pip 

口 Bazel 

口 Matplotlib 
口 Numpy 

口 Pandas 


D mnist_data 


阅读 第 8~10 章 时 ， 还 需要 以 下 框 
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Q Keras 

Q XLA 

Q Pretty Tensor 
Q TFLearn 

Q OpenAI gym 





请 注意 , TensorFlow 的 GPU 启用 版 本 需要 满足 以 下 要 求 : 64[v Linux , Python 2.7 ( 知 使 用 Python 3, 
则 要 求 3.3 以 上 版 本 )、NVIDIA CUDA® 7.5 ( 对 于 Pascal GPU, ， 则 需要 CUDA 8.0 版 本 )、NVIDIA 
cuDNN v4.0 (最低 ) 或 v5.1 (推荐 )。 另 外 ， 当 前 TensorFlow 对 GPU 计算 的 支持 仅 限 于 NVIDIA 的 
工具 、 驱 动 和 软件 。 


读者 对 象 


如 果 你 是 不 具备 太 高 深 的 数学 背景 , 但 又 想 了 解 深度 学 习 的 开发 人 员 、 数 据 分 析 师 , 或 是 对 
深度 学 习 感 兴趣 的 学 习 者 , 那么 本 书 非常 适合 你 。 书 中 内 容 主 要 针对 想 要 快速 入 门 的 新 手 , 帮助 
他 们 获取 一 些 深度 学 习 的 实战 经 验 。 读 者 需要 具备 基本 的 编程 能 力 ,掌握 至 少 一 门 程序 设计 语言 ， 
并 熟悉 计算 机 科学 技术 的 基础 知识 ， 如 基本 的 硬件 、 算 法 知识 等 。 男 外 ,还 需 具备 基本 的 数学 能 
Ti, 熟悉 基础 的 线性 代数 和 微 积分 知识 等 。 















































排版 约定 


在 本 书 中 ,你 将 会 看 到 几 种 不 同 的 文本 格式 , 用 以 区 分 不 同 信息 。 下 面 是 这 些 文本 格式 的 示 
例 及 其 相应 的 含义 。 


文本 中 的 代码 、 数 据 库 表 名 、 文 件 夹 名 、 文 件 名 、 文 件 扩 展 名 、 路 径 名 、 模 拟 URL、 用 户 输 
入 及 Twitter 句柄 等 内 容 ， 显 示 为 :“ 若 要 保存 一 个 模型 ， 需 要 使 用 Saver () 类 。” 


代码 块 格式 如 下 : 














saver = tf.train.Saver() 
save_path = saver.save(sess, "softmax_mnist") 
print ("Model saved to $s" % save path) 


所 有 命令 行 输入 /输出 采用 以 下 格式 显示 : 
$ sudo apt-get install python-pip python-dev 


屏幕 上 显示 的 词语 ， 例 如 菜单 或 对 话 框 中 的 词 ， 在 文本 中 显示 如 下 :“ 点 击 GRAPH 选 项 卡 ， 
可 以 看 到 该 模型 的 计算 图 及 其 中 继 节点 。” 





前 言 Vii 





QD 警告 或 重要 的 注意 事项 。 
és 提示 或 小 技巧 。 








读者 反馈 
欢迎 各 位 提出 宝贵 意见 ,请 让 我 们 知道 你 对 本 书 的 看 法 一 喜欢 什么 或 者 不 喜欢 什么 。 读 者 





反馈 对 我 们 非常 重要 ， 因 为 这 可 以 帮助 我 们 发 现 对 大 家 最 有 帮助 的 主题 。 


要 想 提供 反 馈 ， 只 需 登 








录 “ 图 灵 社 区 ”本 书页 面 (http://www.ituring.com.cn/book/2420 ) 并 留 





客户 支持 
如 果 您 购买 了 我 们 出 版 的 图 书 ， 我 们 将 提供 一 系列 服务 来 使 您 获得 最 大 收益 。 
下 载 示例 代码 





你 可 以 从 “图 灵 社 区 ”本 书页 面 Chttp://www.ituring.com.cn/book/2420 ) 下 载 书 中 示例 代码 。 
文件 下 载 结束 之 后 ， 请 确定 使 用 以 下 软件 的 最 新 版 本 解压 或 提取 文件 : 


a Windows [fii HWinRAR/7-Zip 
口 Mac 上 使 用 Zipeg/iZip/UnRarX 
口 Linux 上 使 用 7-Zip/PeaZip 








本 书 的 代码 也 被 托管 在 GitHub 上 ， 地 址 为 https://github.com/PacktPublishing/Deep-Learning- 


with-TensorFlow。https://github.com/PacktPublishing/ 这 个 地 址 还 提供 了 其 他 种 类 丰富 的 图 书 和 视 
频 资料 相关 代码 包 ， 好 好 看 一 下 吧 ! 








下 载 本 书 彩色 图 片 








我 们 也 提供 含有 彩色 截图 /图 表 的 PDF 文 件 。 彩 色 图 片 能 帮助 你 更 深入 地 理解 输出 的 变化 。 可 以 
从 https://www.packtpub.com/sites/default/files/downloads/DeepLearningwithTensorFlow_ColorImages.pdf 
下 载 此 文件 。 
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勘误 

尽管 我 们 做 了 各 种 努力 来 保证 内 容 的 准确 性 , 依然 无 法 避免 出 现 错误 。 如 果 您 在 书 中 发 现 文 
字 或 代码 错误 并 告知 我 们 , 我们 将 非常 感谢 。 通 过 勘误 ， 您 可 以 提高 其 他 读者 的 阅读 体验 ,并 可 
以 帮助 我 们 在 本 书 的 后 续 版 本 中 做 出 改进 。 不管 您 发 现 什 么 错误 ,都 可 以 通过 “图 灵 社 区 ”本 书 
页 面 (http:/www.ituring.com.cn/book/2420 ) 告诉 我 们 。 一 旦 勘误 通过 确认 , 将 显示 在 页 面 上 的 其 
误 表 中 。 





























反 盗版 


互联 网 上 针对 有 版 权 资 料 的 盗版 行为 一 直 存在 , 并 逐步 扩展 到 所 有 媒体 。 图 灵 公 司 非常 重视 
对 自己 版 权 和 许可 的 保护 , 如 果 您 在 互联 网 上 发 现 对 于 我 们 工作 的 任何 形式 的 非法 复制 行为 , 请 
立即 将 地 址 或 网 站 名 通知 我 们 ,我们 会 采取 对 策 。 


请 联系 ebook@turingbook.com 并 提供 有 盗版 嫌疑 的 链接 。 
如 果 我 们 在 作者 保护 和 造福 读者 方面 得 到 您 的 帮助 ， 我 们 将 非常 感谢 。 









































问题 


对 本 书 有 任何 疑问 ,都 可 以 登录 “图 灵 社 区 ”本 书页 面 ( http://www.ituring.com.cn/book/ 2420 ), 
我 们 会 尽 最 大 努力 解决 问题 。 





电子 书 
如 需 购买 本 书 电子 版 ， 请 扫描 以 下 二 维 码 。 
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本 章 会 讨论 深度 学 习 的 一 些 基 本 概念 及 其 相关 架构 ， 这 些 内 容 在 后 续 章 节 中 都 会 有 所 涉及 。 
首先 简要 介绍 机 器 学 习 的 定义 。 运 用 机 器 学 习 技 术 可 以 实现 对 大 型 数据 集 的 分 析 , 自动 抽取 信息 
并 对 后 续 的 新 数据 进行 预测 。 接 着 介绍 深度 学 习 的 概念 。 深 度 学 习 是 机 顺 学 习 的 一 个 分 文 ， 纪 在 
使 用 一 系列 算法 对 高 度 抽象 的 数据 进行 建 模 。 


























随后 介绍 深度 学 习 架 构 ， 也 就 是 所 谓 的 深度 神经 网 络 (Deep Neural Networks, DNN ), 这 
种 神经 网 络 与 普通 的 单 隐藏 层 神 经 网 络 的 不 同 主要 在 于 “深度 ”。 "深度 ” 指 的 是 节点 层 的 数量 。 
也 就 是 说 , 深度 神经 网 络 拥 有 多 个 层 ， 在 模式 识别 的 过 程 中 ,数据 需要 依次 通过 这 些 层 。 本 章 用 
一 个 表格 总 结 了 各 种 神经 网 络 模型 ， 大 部 分 深度 学 习 算法 都 是 由 这 些 神经 网 络 模型 发 展 而 来 的 。 


本 章 最 后 会 针对 多 个 特性 简要 了 解 并 对 比 几 种 深度 学 习 框 架 ， 比 如 框架 使 用 的 语言 、 多 GPU 
支持 及 可 用 性 等 。 
本 章 包含 以 下 主题 : 
OQ 机 器 学 习 简介 
口 深度 学 习 定 义 
口 神经 网 络 
口 人 工 神经 网 络 的 学 习 方式 
口 神经 网 络 架 构 
口 DNN 架 构 
口 几 种 深度 学 习 框 架 的 对 比 


































































































1.1 机 器 学 习 简 介 


机 器 学 习 是 计算 机 科学 中 的 一 个 研究 领域 , 其 目标 是 识别 并 实现 一 些 系 统 和 算法 ,从 而 使 计 
































杂 的 模式 ， 并 尽 可 能 智能 地 做 出 决策 。 完 整 的 学 习 过 程 需要 以 下 数据 集 。 











口 训练 集 : 知识 库 ， 用 于 训练 机 器 学 习 算法 。 在 这 一 阶段 ， 机 器 学 习 模 型 的 参数 ( 超 参数 ) 
可 以 根据 随后 获得 的 性 能 进行 调整 。 

口 测试 集 : 仅 用 于 评价 模型 对 未 知 数据 的 预测 性 能 。 

学 习 理论 采用 的 数学 工具 衍生 自 概率 论 、 信 息 论 等 学 科 ， 可 以 实现 对 模型 性 能 的 对 比 。 

机 器 学 习 的 范式 主要 有 三 种 : 

口 监督 学 习 


Q 无 监督 学 习 


a 强化 学 习 














1.1.1 监督 学 习 


监督 学 习 是 一 种 相对 简单 、 成 熟 的 自动 学 习 任 务 。 它 基于 一 系列 预 分 类 的 样 例 ， 也 就 是 说 ， 
预先 知道 作为 输入 的 每 个 样 例 应 该 属于 哪个 类 。 在 这 种 情况 下 ， 学 习 的 关键 问题 就 是 “ 泛 化 "。 
对 一 个 样本 (通常 比较 小 ) 进行 分 析 后 ， 系 统 应 当 能 够 生成 一 个 对 所 有 可 能 输入 都 可 用 的 模型 。 


数据 集 包 含有 标签 的 数据 ， 即 “对 象 ” 及 其 对 应 的 “类 ”。 这 个 有 标签 属性 的 集合 便 组 成 
了 训练 集 。 


大 部 分 监督 学 习 算 法 有 一 个 共同 的 特点 : 定义 某 种 “损失 函数 ”或 “代价 函数 ”"， 对 训练 集 
进行 处 理 时 使 其 最 小 化 。 该 函数 代表 系统 的 实际 输出 相对 于 正确 输出 的 错误 率 , 因为 训练 集 给 定 
的 输出 肯定 是 正确 输出 。 


系统 接 下 来 会 改变 其 内 部 的 一 些 可 调 的 参数 ， 即 权重 ,以 最 小 化 这 个 误差 函数 。 随 后 ,要 评 
价 模型 的 性 能 。 给 出 男 一 组 有 标签 的 样 例 ( 测试 集 )， 检 测 被 正确 分 类 的 样 例 和 被 错误 分 类 的 样 
例 的 百分比 。 


监督 学 习 除了 应 用 于 分 类 场景 , 还 可 用 于 学 习 数 值 型 预测 函数 。 这 种 任务 称 为 回归 。 在 回归 
问题 中 , 训练 集 是 由 对 象 及 其 对 应 的 数值 组 成 的 二 元 组 , 许多 监督 学 习 算法 已 经 实际 应 用 于 分 类 
和 回归 问题 。 这 些 算 法 均 可 视 为 一 套 描述 分 类 顺 或 预测 需 的 规则 ， 其 中 包括 决策 树 、 决 策 法 则 、 
神经 网 络 和 贝 叶 斯 网 络 。 










































































1.1.2 无 监督 学 习 


无 监督 学 习 与 监督 学 习 相 反 , 在 训练 过 程 中 提供 给 系统 的 输入 是 没有 标签 的 。 这 种 学 习 范 式 
非常 重要 ， 因 为 人 脑 处 理 的 无 监督 学 习 任 务 要 比 监督 学 习 任 务 多 得 多 。 
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1.2 深度 学 习 定 义 3 





在 这 种 情况 下 , 学 习 模型 中 的 唯一 对 象 便 是 观察 到 的 输入 数据 。 一 般 假设 这 些 输 入 数据 为 相 | 
互 独立 的 样本 ， 并 服从 某 种 概率 分 布 。 


无 监督 学 习 算法 常用 于 处 理 聚 类 问题 , 即 给 定 一 系列 对 象 , 我 们 希望 理解 并 展示 它们 之 间 的 
关系 。 一 种 标准 的 做 法 是 为 每 两 个 对 象 定义 一 种 相似 度 , 据 此 找 出 簇 的 划分 , 使 得 簇 内 对 象 相 似 
度 较 大 ， 簇 间 对 象 相似 度 相 对 较 小 。 





1.4.8 强化 学 习 


强化 学 习 是 一 种 人 工 智能 方法 ,强调 利用 系统 与 其 环境 之 间 的 交互 进行 学 习 。 通 过 强化 学 习 ， 
系统 根据 从 环境 获得 的 反馈 动态 调整 其 参数 , 调 参 的 结果 又 进一步 作为 反馈 指导 决策 。 例 如 , 用 
前 面 棋 步 的 结果 改进 性 能 的 国际 象棋 程序 就 是 一 个 强化 学 习 系统 。 目 前 ,针对 强化 学 习 的 研究 涉 
及 众多 学 科 ， 涵 盖 了 遗传 算法 、 神 经 网 络 、 心 理学 和 控制 工程 等 各 种 领域 。 


图 1-1 总 结 了 上 述 三 种 学 习 范 式 ， 并 列 出 了 与 之 相关 的 问题 。 
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SM - 推荐 系统 
， 维 度 约 减 




















图 1-1 学 习 范 式 及 其 相关 问题 





1.2 深度 学 习 定 义 


深度 学 习 是 机 器 学 习 中 的 一 个 研究 方向 , 它 基于 一 种 特殊 的 学 习 机 制 。 其 特点 是 建立 一 个 多 
层 学 习 模 型 ,深层 级 将 浅 层级 的 输出 作为 输入 ,将 数据 层 层 转化 ,使 之 越 来 越 抽象 。 这 种 分 层 学 
习 思 想 模 拟 的 是 人 脑 接 受 外 界 刺激 时 人 处理 信息 和 学 习 的 方式 。 


根据 假设 ,每 一 个 学 习 层 对 应 大 脑 皮层 的 一 个 不 同 区 域 。 
































1.2.1 人 脑 的 工作 机 制 
负责 解决 图 像 识 别 问 题 的 视觉 皮质 由 一 系列 具有 层级 结构 的 扁 区 组 成 , 每 个 区 域 从 与 之 连接 








的 其 他 扇 区 接收 信号 流 作 为 输入 表示 。 
这 种 层级 结构 中 的 每 一 层 代表 不 同 程度 的 抽象 , 层级 越 高 , 抽象 程度 越 大 。 大 脑 接收 到 一 个 输 
和 图像 时 , 会 分 成 几 个 阶段 对 其 进行 处 理 , 例如 检测 边缘 或 感知 形状 ( 任务 由 简单 逐渐 变 得 复杂 )。 
随 着 大 脑 根据 经 验 一 点 一 点 地 学 习 、 激 活 新 的 神经 元 ,抽象 层 会 随 着 输入 信息 变化 。 深 度 学 
习 架 构 就 模仿 了 人 脑 的 这 一 过 程 。 
在 图 像 分 类 任务 中 , 这 种 层级 结构 叙述 如 下 : 一 层 层 的 处 理 块 逐渐 提取 输入 图 像 的 特征 ,每 
一 个 块 都 会 继续 处 理 已 被 前 面 的 块 预 处 理 过 的 数据 ,提取 的 特征 也 越 来 越 抽象 这样， 数据 就 被 
表示 为 一 种 层级 结构 ， 这 也 就 是 深度 学 习 系 统 的 基础 。 
更 具体 地 说 ， 可 视 化 的 层级 建立 过 程 如 下 所 示 。 
O 第 1 层 : 系统 开始 识别 明 / 暗 像素 
口 第 2 层 : 系统 识别 边缘 和 形状 
口 第 3 层 : 系统 学 习 到 更 为 复杂 的 形状 和 物体 
口 第 4 层 : 系统 学 习 人 脸 由 哪些 物体 定义 


图 1-2 是 该 过 程 的 可 视 化 表示 。 









































第 2 层 




















图 1-2 ”人 脸 识别 问题 中 的 深度 学 习 系统 


1.22 ”深度 学 习 历 史 
深度 学 习 的 发 展 与 人 工 智能 , 尤其 是 神经 网 络 的 研究 齐头并进 。 深 度 学 习 的 研究 始 于 20 世 纪 
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50 年 代 初 ， 但 直到 20 世 纪 80 年 代 才 开始 发 展 起 来 。 其 繁 业 要 归功 于 杰 弗 里 - 辛 顿 以 及 与 其 合作 的 
机 器 学 习 专家 。 当 时 的 计算 机 技术 不 够 先进 ,导致 这 一 研究 方向 并 无 大 的 改进 ， 所 以 我 们 直到 今 
天 才 看 到 深度 学 习 的 真正 发 展 。 如 今 ,我 们 拥有 海量 数据 和 强大 的 计算 能 力 ， 可 以 进一步 发 展 壮 
大 深度 学 习 。 








1.2.3 ”应 用 领域 


深度 学 习 已 被 应 用 于 多 个 领域 ， 如 语音 识别 系统 、 搜 索 模 式 等 。 特 别 是 在 图 像 识 别 领域 ， 深 
度 学 习 这 种 层级 结构 表现 十 分 优秀 ， 能 够 一 步 步 地 逐 块 聚焦 图 像 ， 对 其 进行 处 理 和 分 类 。 








1.9 ”神经 网 络 


人 工 神经 网 络 是 深度 学 习 概 念 的 一 个 主要 应 用 工具 。 它 是 人 类 神经 系统 的 一 个 抽象 表示 , 其 
中 包含 一 系列 可 以 通过 轴 突 相互 通信 的 神经 元 。 第 一 个 人 工 神经 元 由 麦 卡 洛克 和 皮特 斯 于 1943 
年 提出 ， 旨 在 为 神经 活动 建立 计算 模型 。 很 多 学 者 又 对 该 模型 进行 了 进一步 研究 ， 比 如 冯 ' 诺 依 
曼 、 马 文明 斯 基 和 弗兰克 罗 森 布 拉 特 〈 所 谓 的 “感知 器 ”) 等 。 



















































































1.3.1 生物 神经 元 
一 个 生物 神经 元 由 以 下 部 分 组 成 : 


口 一 个 胞 体 ; 
口 一 个 或 若干 个 树 突 ， 负责 从 其 他 神经 元 接收 信号 ; 
口 一 个 轴 突 ， 人 负责 将 该 神经 元 发 出 的 信号 依次 传输 给 与 之 相连 的 其 他 神经 元 。 


1-3 是 生物 神经 元 模型 示意 图 。 
































图 1-3 ”生物 神经 元 模型 
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神经 元 的 活动 包括 发 送信 号 ( 激活 态 )， 以 及 静止 /从 其 他 神经 元 接收 信号 ( 抑制 态 )， 二 者 
交替 出 现 。 

引起 状态 转变 的 原因 是 外 界 刺激 ， 即 树 突 接收 的 信号 。 每 个 信号 都 具有 激活 或 抑制 效应 , 概 
念 上 用 一 个 与 刺激 相关 的 权重 表示 。 处 于 空闲 状态 的 神经 元 会 将 接收 到 的 信号 积攒 起 来 ,直到 它 
们 达到 某 个 激活 阔 值 ， 于 是 转变 为 激活 态 。 























1.3.2 人工 神经 元 
与 生物 神经 元 相似 ， 人 工 神经 元 由 以 下 部 分 组 成 : 
口 一 个 或 多 个 人 连接 ， 用 于 从 其 他 神经 元 接收 数字 信和 号， 每 个 连接 都 被 赋 与 一 个 权重 ， 用 
于 为 信号 加 权 ; 
口 一 个 或 多 个 输出 连接 ， 用 于 向 其 他 神经 元 发 出 信号 ; 
口 一 个 激活 函数 ， 该 函数 从 其 他 神经 元 接收 输入 信号 并 对 其 进行 适当 加 权 ， 结 合 该 神经 元 
的 激活 阔 值 决定 输出 信号 的 数值 。 
图 1-4 展 示 了 人 工 神经 元 的 结构 。 























图 1-4 人 工 神经 元 模型 


神经 元 的 输出 ， 即 神经 元 最 终 向 外 界 传输 的 活动 信号 , 是 由 激活 函数 对 输入 信号 加 权 求 和 计 
算得 出 的 。 激 活 函 数 又 称 传递 函数 。 这 类 函数 的 值 域 一 般 为 -1~1 或 0~1。 


以 下 是 几 种 复杂 度 和 输出 彼此 不 同 的 激活 函数 。 


口 阶 路 函数 : 函数 会 定义 一 个 固定 阐 值 x ( 如 x = 10 )。 当 输入 的 加 权 和 等 于 、 大 于 或 小 于 该 
净值 时 ， 函 数 将 返回 0 或 1。 


























1.3 神经 网 络 7 





OQ 线性 组 合 : AGRA XETRA, RELS KUA AES A A S el — ^1" 
默认 值 ， 最 终 会 得 到 一 个 二 进 制 值 ， 但 一 般 将 其 表示 为 正 类 (+b) 和 负 类 (—b) 输出 。 
O sigmoid 4: 该 函数 会 生成 一 个 S 形 sigmoid 曲 线 。sigmoid 也 数 一 般 指 一 种 特殊 的 logistic 
函数 。 


第 一 个 人 工 神经 元 模型 只 使 用 了 形式 最 为 简单 的 激活 函数 。 人们 后 来 发 明了 更 为 复杂 的 激活 
函数 ， 可 以 使 神经 元 实现 更 多 功能 ， 下 面 列举 其 中 几 种 : 


口 双 曲 正切 函数 
Q fe] d PRL 
口 圆锥 曲线 函数 
D softmax 函数 


不 要 忘记 , 神经 网 络 激活 函数 中 的 权重 是 要 靠 训 练 得 出 的 。 虽 然 在 神经 网 络 架 构 的 实现 过 程 
中 ,激活 函数 的 选择 非常 重要 ,但 研究 表明 ,在 保证 训练 过 程 正 确 的 前 提 下 ,不同 激 活 函 数 产 生 
的 输出 质量 差距 并 不 太 大 。 

图 1-5 中 的 函数 解释 如 下 。 
Qa: MIRAX 
Ob: 线性 函数 
Qe: 值 域 为 0~1 的 sigmoid 函 数 
Od: 值 域 为 -1~1 的 sigmoid 函 数 





































































































图 1-5 几 种 最 常用 的 传递 函数 
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14 人 工 神经 网 络 的 学 习 方 式 


中 经 网 络 的 学 习 过 程 是 对 权重 的 迭代 优化 ,因此 属于 监督 学 习 范 畴 。 权 重 的 修改 基于 网 络 在 
训练 集 上 的 表现 ， 且 训练 集中 的 样本 所 属 的 分 类 是 已 知 的 。 学 习 的 目标 是 最 小 化 损失 函数 ,该 函 
数 代 表 网 络 输出 相对 于 正确 输出 的 偏 移 程度 。 随 后 , 通过 不 与 训练 集 交叉 的 测试 集 对 象 ( 如 图 像 
分 类 问题 中 的 图 片 ) 验证 网 络 性 能 。 

















— 























1.4.4. 反 向 传播 算法 
反 向 传播 算法 是 神经 网 络 学 习 过 程 中 用 到 的 一 种 监督 学 习 算法 。 
该 算法 训练 过 程 的 基本 步骤 如 下 所 示 。 
(1) 以 随机 权重 初始 化 网 络 。 
(2) 对 于 每 个 训练 样本 ， 重 复 以 下 过 程 。 


O 前 向 传播 : 计算 网 络 产生 的 总 误差 ， 即 网 络 输出 与 正确 输出 的 差 值 。 
口 反 向 传播 : 从 输出 层 到 输入 层 ， 反 向 遍历 所 有 层 。 


(3) 在 反 向 遍历 过 程 中 ,根据 上 一 层 的 误差 和 对 应 权 值 ， 逐 层 计算 网 络 内 部 各 层 误差 ， 从 而 
将 总 误差 从 输出 层 向 隐藏 层 反 向 传播 ， 直 至 传播 到 和 输入 层 。 


(4) 根据 各 层 误差 调整 各 层 权重 ， 以 最 小 化 误差 函数 。 此 为 反 向 传播 算法 的 权重 优化 步 又 。 


当 验 证 集 上 的 误差 开始 增加 时 ,训练 终止 ,因为 此 时 网 络 可 能 已 经 开始 过 拟 合 。 换 言 之, 网 络 为 
了 更 好 地 拟 合 训练 数据 而 牺牲 泛 化 能 力 。 







































































142 ”权重 优化 


有 效 的 权重 优化 算法 是 建立 神经 网 络 的 必要 工具 。 解 决 该 问题 可 以 采用 一 种 数值 迭代 算 
法 一 一 梯度 下 降 法 (Gradient Descent, GD )。 


该 算法 的 具体 步骤 如 下 所 示 : 

(1) 随机 选择 参数 初始 值 ; 

(2) 对 模型 中 的 每 个 参数 ， 计 算 误差 函数 的 梯度 G; 

(3) 调整 模型 参数 ， 使 其 向 误差 减 小 的 方向 ， 即 -G 方 向 移动 ; 
(4) 重复 步骤 2 和 3， 直 到 G 的 值 趋 于 0。 
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在 数学 中 ， 标 量 场 的 梯度 是 定义 在 二 维 、 三 维 或 更 高 维 空 间 上 的 关于 若干 个 变量 

KBR (向 量 场 )。 函 数 的 梯度 定义 为 一 个 向 量 ， 该 向 量 的 直角 坐标 分 量 即 为 该 
ce 函数 的 偏 导数 。1 元 函数 [xi Xo,… ,Xi) 的 梯度 代表 使 该 函数 的 值 增加 最 快 的 方向 。 

总 而 言 之 ， 梯 度 是 一 个 向 量 ， 它 将 物理 量 ( 标量 ) 表示 为 几 个 不 同 参数 的 函数 。 





误差 函数 E 的 值 在 当前 点 上 沿 着 梯度 G 的 方向 变化 最 快 ， 因此 ， 若 要 减 小 E, 需要 沿 着 相反 的 
方向 -G 小 步 移 动 ( 如 图 1-6 所 示 )。 


迭代 重复 该 操作 若干 次 ， 即 可 得 到 使 函数 E 取 极 小 值 的 梯度 G 的 方向 〈《 见 图 1-6 )。 





E 的 负 和 斜率 














图 1-6 梯度 下 降 过 程 
由 图 1-6 可 见 ， 我们 正 沿 着 使 函数 E 取 极 小 值 的 梯度 G 的 方向 移动 。 











1.4.8 ”随机 梯度 下 降 法 


在 梯度 下 降 的 优化 过 程 中 , 我 们 是 在 完整 的 训练 集 上 计算 代价 函数 梯度 的 , 所 以 常常 将 其 称 
为 “批量 梯度 下 降 "”。 如 果 遇 到 非常 大 的 数据 集 ， 使 用 梯度 下 降 法 可 能 产生 很 大 开销 ， 因 为 每 走 
一 步 都 要 遍历 整个 训练 集 。 

因此 ， 训 练 集 越 大 ， 算 法 对 权 值 的 升级 越 慢 ， 收 敛 到 全 局 最 优 解 所 需 的 时 间 也 越 长 。 

针对 这 一 问题 ,DNN 中 常常 采用 一 种 收敛 速度 最 快 的 梯度 下 降 方 法 ,以 代替 批量 梯度 下 降 法 ， 
这 种 方法 称 为 随机 梯度 下 降 法 (Stochastic Gradient Descent, SGD )。 

对 于 SGD, 我 们 在 一 次 迭代 中 只 用 一 个 训练 样 例 升 级 一 个 参数 。 此 处 采用 “随机 ”一 词 是 因 
为 ， 单 一 训练 样 例 的 梯度 是 真正 的 代价 梯度 的 一 个 随机 近似 。 

与 在 GD 中 不 同 ， 受 随机 特性 的 影响 ，SGD 收 敛 到 全 局 最 小 代价 的 路 径 不 会 是 直 的 。 进 行 二 
维 可 视 化 会 发 现 ，SGD 的 收敛 路 径 蚁 虹 曲 折 C 见 图 1-7b 随 机 梯度 下 降 法 )。 
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根据 图 1-7， 可 以 对 两 种 优化 方法 进行 比较 。 梯 度 下 降 法 〈 见 图 1-7a 梯 度 下 降 法 ) 保证 对 权重 
的 每 一 次 更 新 都 治 着 正确 的 方向 进行 , 该 方向 也 是 代价 函数 趋 于 最 小 值 的 唯一 方向 。 随 着 数据 集 
的 增 大 ， 步 计 算 更 为 复杂 ，SGD 便 展现 出 其 优越 性 。 在 SGD 中 ,每 处 理 一 个 训练 样本 ， 权 值 
就 能 得 到 一 次 更 新 , 所 以 后 续 计 算 使 用 的 是 被 前 面 步骤 优化 过 的 权 值 。 然 而 ， 这 也 使 得 SGD 在 收 
敛 到 全 局 最 优 解 的 过 程 中 会 走 一 些 弯路 。 






























































(a) 梯度 下 降 法 ，GD (b) 随机 梯度 下 降 法 ，SGD 

















图 1-7 GD 与 SGD 


1.5 神经 网 络 架 构 


中 经 网 络 的 架构 是 由 节点 的 连接 方式 、 网 络 的 层 数 ( 即 输入 层 与 输出 层 之 间 的 节点 层 数 ) 和 
每 层 的 神经 元 数量 决定 的 。 神 经 网 络 的 架构 有 很 多 种 ， 本 书 主要 讲 其 中 的 两 大 类 。 























— 

















1.5.1 多 层 感 知 器 
在 多 层 网 络 中 ， 可 以 这 样 定义 每 层 中 的 人 工 神经 元 : 


口 每 个 神经 元 与 下 一 层 的 所 有 神经 元 均 相 连 ; 
a 同一 层 的 神经 元 之 间 均 不 相连 ; 
口 不 相 邻 的 层 中 的 神经 元 之 间 没 有 联系 ; 

口 网 络 的 层 数 和 每 层 中 神经 元 的 数量 取决 于 需要 解决 的 问题 。 


输入 和 输出 层 负 责 数据 的 输入 和 输出 ， 输 入 /输出 层 中 间 的 层 称 为 隐藏 民 ， 其 复杂 程度 决定 
网 络 的 不 同 表 现 。 最 后 ,神经 元 之 间 的 连接 情况 用 邻接 矩阵 表示 ， 邻 接 矩 阵 的 数量 取决 于 有 多 少 
对 相 邻 层 。 和 矩阵 中 的 每 个 元 素 代表 相 邻 层 间 对 应 的 两 个 节点 的 连接 权重 。 同 一 层 内 不 含有 环 的 网 
络 称 为 前 馈 网 络 。 
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多 层 感 知 器 的 结构 如 图 1-8 所 示 。 





























图 1-8 ”多 层 感知 器 结构 


1.5.2 DNN 架构 


深度 神经 网 络 是 专 为 深度 学 习 设 计 的 一 种 人 工 神 经 网 络 模 型 。 遇 到 极其 复杂 、 一 般 分 析 方 法 
难以 处 理 的 数据 时 , 深度 神经 网 络 便 成 为 有 力 的 建 模 工具 。DNN 本 质 是 一 种 神经 网 络 ， 和 我 们 之 
前 讨论 过 的 那些 很 相似 ， 也 遵循 机 器 学 习 问 题 ( 监督 学 习 ) 的 基本 学 习 定 律 , 但 其 实现 的 模型 更 
为 复杂 〈 神 经 元 数 、 隐 藏 层 数 和 连接 数 大 大 增加 )。 


DNN 可 以 并 行 工作 ， 所 以 能 够 处 理 大 量 数据 。 它 是 一 个 成 熟 的 统计 系统 ， 且 容错 性 很 强 。 


与 一 般 的 算法 系统 不 同 , 神经 网 络 的 输出 并 不 能 逐步 检查 , 但 它 仍 然 可 以 得 出 可 靠 结 果 一 一 
虽然 有 时 其 结果 并 不 具备 可 解释 性 。 没 有 哪个 定理 能 指导 生成 最 优 神经 网 络 , 能 否 建立 性 能 优秀 
的 神经 网 络 取 决 于 建立 者 是 否 对 统计 学 概念 足够 熟悉 ， 是 否认 真 选择 了 合适 的 网 络 参 数 。 





























@ 关于 各 种 神经 网 络 及 其 相关 资料 的 简单 总 结 , 详 见 Asimov 研 究 所 网 站 http:/www. 


asimovinstitute.org/neural-network-zoo/。 


最 后 ， 我 们 发 现 ， 知 要 得 出 优秀 的 DNN， 训 练 中 权 值 的 调 优 至 关 重 要 。 如 果 在 数据 量 较 大 、 
涉及 变量 较 多 的 情况 下 希望 得 到 最 优 结果 , 训练 过 程 可 能 耗费 相当 长 的 时 间 。 本 节 简 要 介绍 几 种 
深度 学 习 架 构 ， 本 书后 续 章 节 会 对 它们 进行 详细 讲解 。 
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1.5.3” 卷 积 神经 网 络 


卷 积 神经 网 络 (Convolutional Neural Networks, CNN ) 是 针对 图 像 识 别 设计 的 神经 网 络 模 
型 。 学 习 过 程 中 用 到 的 每 个 图 像 都 被 分 成 若干 个 基 拓 扑 窗口 ， 滤 波 需 会 处 理 这 些 窗口 ， 以 寻找 特 
定 模式 。 该 模型 将 每 个 图 像 表 示 为 一 个 三 维 的 像素 矩阵 〈 宽度 、 高 度 和 颜色 )， 并 用 一 组 滤波 器 
对 每 个 子 窗口 进行 卷 积 运算 。 换 名 话说 ,模型 会 将 各 滤波 器 依次 加 载 到 图 像 上 ,计算 各 滤波 和 矩阵 
与 输入 图 像 的 内 积 。 该 过 程 会 为 不 同 滤波 器 生成 一 系列 特征 映射 (激活 映射 )。 通 过 又 加 图 像 中 
同一 窗口 的 不 同 特征 映射 ， 即 可 获得 输出 。 网 络 中 的 这 种 层 称 为 卷 积 层 。 


图 1-9 展 示 了 CNN 的 一 种 典型 架构 。 




















卷 积 层 


Nl 














图 1-9” 卷 积 神经 网 络 结构 


1.5.4  SEBRSRZRZE SH 


A TR SR 4325 ZL (Restricted Boltzman Machine, RBM ) 由 一 个 可 见 节点 层 和 一 个 隐藏 节点 
层 组 成 。 根 据 限 制 条件 ， 层 内 节点 互 不 相连 ， 层 间 节 点 才 可 能 有 连 边 。 这 些 限制 条 件 可 使 训练 效 
率 更 高 ( 训练 可 以 是 监督 或 无 监督 的 )。 


这 种 模型 可 以 用 较 小 的 网 络 表 示 大 量 输 入 特征 ， 实 际 上 ，n 个 隐藏 节点 最 多 可 以 表示 2n 个 特 
征 。 这 种 网 络 可 被 训练 用 于 回答 二 元 问题 ， 少 则 回答 一 个 一 般 疑 问 句 ， 多 则 2n 个 。 


RBM 的 结构 如 图 1-10 所 示 ， 其 神经 元 组 成 一 个 对 称 的 二 部 图 。 
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图 1-10 ZIEK BUSTA 
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栈 式 自 编码 器 是 一 种 深度 神经 网 络 ,一 般 用 于 数据 压缩 。 它 拥有 特殊 的 沙漏 结构 ,清晰 展示 
数据 压缩 和 解压 过 程 。 从 输入 层 到 所 谓 的 “瓶颈 ”是 数据 的 压缩 过 程 ， 从 “瓶颈 ”开始 到 输出 层 
便 是 解压 过 程 。 

自 编 码 器 的 输出 数据 是 输入 数据 的 一 个 近似 ， 如 图 1-11 所 示 。 网 络 在 预 训练 (压缩 ) 阶段 是 
无 监督 的 ， 而 微调 (解压 ) 过 程 属于 监督 学 习 。 
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图 1-11 栈 式 自 编码 器 结构 





1.7 ”循环 神经 网 络 


循环 神经 网 络 ( Recurrent Neural Networks, RNN ) 的 基本 特 和 
Ede, 所 以 网 络 的 激活 可 以 在 环 中 游 走 。RNN 能 够 处 至 








是 ， 网 络 中 含有 至 少 一 个 反 
EE 时 间 相 关 的 数据 并 学 习 时 序 信息 , 例如 














进行 序列 识别 / 重 现 ， 或 时 序 关联 /预测 。RNN 架 构 拥 有 许多 不 同形 式 ， 一 种 常见 的 形式 是 由 标准 
的 多 层 感知 器 (Nultilayer Perceptron, MLP ) 加 上 一 些 环 构成 的 。 这 种 结构 可 以 有 效 利 用 MLP 
强大 的 非 线性 映射 特性 , 并 具有 一 定 的 记忆 能 力 。 其 他 形式 的 RNN 结 构 大 同 小 异 , 一 般 每 个 神经 
元 都 可 能 与 其 余 所 有 神经 元 相连 ， 有 的 还 具有 随机 激活 函数 。 对 于 结构 简单 、 具 有 确定 激活 函数 
的 RNN， 可 以 采用 和 前 馈 网 络 使 用 的 反 向 传播 算法 相似 的 梯度 下 降 方法 进行 学 习 。 


图 1-12 展 示 了 RNN 的 几 个 最 重要 特征 。 
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图 1-12 ”循环 神经 网 络 结构 
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本 节 将 介绍 深度 学 习 中 最 常用 的 几 种 框架 。 总 体言 之 , 几乎 所 有 库 都 支持 用 图 形 处 理 器 加 速 





学 习 过 程 ， 在 开放 许可 证 下 发 行 ， 并 由 高 校 研究 团队 设计 实现 。 开 始 对 比 各 种 








ERMA ZA 





建议 各 位 先 浏览 图 1-13， 里 面包 含 了 迄今 为 止 几乎 所 有 类 型 的 神经 网 络 架 构 。 如 果 浏 览 相关 网 站 
和 论文 ,你 会 发 现 神经 网 络 的 概念 出 现 很 早 ,而 我 们 将 要 对 比 的 几 种 开发 框架 实际 上 仍然 沿用 了 




















类 似 结构 。 











O Theano: 可 能 是 当前 使 用 最 广 的 库 。 该 库 用 Python 实现 , Python 也 是 机 器 学 习 领 域 最 常用 
的 语言 之 一 (TensorFlow 也 使 用 Python )。Theano 支 持 GPU 计 算 ， 可 以 达到 CPU 运算 速度 
的 24 倍 。 另 外 ，Theano 还 允许 用 户 定义 、 优 化 和 评估 复杂 的 数学 表达 式 ， 如 多 维 数组 等 。 
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神经 网 络 汇总 表 a 
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图 1-13 ”神经 网 络 汇总 表 (来 源 : http//www.asimovinstitute.org/neural-network-zoo/ ) 


O Caffe: 该 框架 最 早 由 加 州 大 学 伯克利 分 校 视 觉 与 学 习 中 心 (BVLC ) 开发 ， 在 对 表达 式 
的 支持 性 、 速 度 和 模块 化 等 方面 表现 十 分 优秀 。 该 框架 拥有 独特 架构 ， 使 得 CPU 运算 能 
够 较为 容易 地 转 为 GPU 运算 。 近 几 年 ， 由 于 用 户 群 的 增 大 ,框架 的 开发 速度 也 十 分 迅速 。 
Caffe 也 基于 Python， 但 由 于 需要 编译 很 多 支持 库 ， 所 以 安装 过 程 耗 时 较 长 。 








O Torch: 一 个 大 型 机 器 学 习 生 态 系统 ， 提 供 大 量 算法 和 函数 ， 其 中 包括 深度 学 习 框 架 和 音 
尤其 专注 于 并 行 计算 。 该 框架 提供 优秀 的 C 语 言 接 口 ， 并 拥 
有 很 大 的 用 户 群 。Torch 是 脚本 语言 Lua 的 扩展 库 , 其 目标 是 为 机 器 学 习 系 统 的 设计 和 训练 





频 / 视 频 等 多 媒体 处 理工 具 ， 


提供 灵活 的 环境 。Torch 是 一 个 独立 、 完 备 的 框 
Linux 和 Android )， 且 其 脚本 在 各 种 平台 上 运行 








场景 提供 了 很 多 有 用 的 特性 





表 1-1 总 结 了 各 框架 的 主要 功能 ,其 中 的 TensorFlow 和 


TensorFlow 
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表 1-1 深度 学 习 框 架 对 比 


Torch 


Caffe 





AB. 高 度 便携 、 跨 平台 (如 Windows、Mac、 
时 无 需 经 过 任何 修改 。Torch 包 为 不 同 应 用 


匡 架 将 在 后 续 章 节 讲 解 ( 肯定 要 讲 的 啊 ! )。 


Theano 





使 用 语言 “Python 和 C++ 
GPU 支 持 支持 
优点 e 计算 图 抽象 ， 同 Theano 
e 编译 速度 比 Theano 更 快 
e 拥有 可 视 化 模块 Tensor 
Board 
e 数据 和 模型 并 行 
运行 速度 较 其 他 框架 慢 
预 训练 的 模型 不 多 
e 计算 图 为 纯 Python 实 现 ， 
故 速度 较 慢 
无 商业 支持 














Me 
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1.9 小 结 


Lua 

支持 

e 设置 简单 

e 错误 信息 参考 性 强 

e 提供 大 量 示 例 代 码 
和 教程 



































€ 在 CentOS 上 很 难 安 
装配 置 


CH 

支持 

e 前 馈 网络 、 图 像 处 理 
方面 表现 优秀 

e 已 有 网 络 的 调 优 效果 
优秀 

e 实用 的 Python 接 

o 错误 信息 较 难 理解 

e 新 建 GPU 层 要 用 C++/ 
CUDA 编 程 实现 

e 循环 网 络 效 果 不 佳 

e 无 商业 支持 
















































































Python 

默认 不 支持 

e 强大 的 Python 语法 

© 拥有 高 层 附 加 框架 

e 提供 大 量 示例 代码 
和 教程 

















© 错误 信息 参考 性 不 强 
e 较 大 的 模型 编译 时 
间 会 很 长 








本 章 介 绍 了 深度 学 习 的 儿 个 基本 主题 , 包括 为 数据 建立 层级 结构 的 一 系列 算法 。 将 代表 每 一 
层 的 简单 单元 组 合 起 来 ， 从 输入 层 向 更 高 层 逐 层 推进 、 逐 渐 抽 象 , 即 可 形成 具有 层级 结构 的 神经 


网 络 。 


近年 来 , 深度 学 习 相 关 技术 在 许多 领域 ( 如 图 

















像 识别 和 语音 识别 领域 ) 取得 了 前 所 未 有 的 成 


效 。 这 些 技术 得 以 广泛 应 用 的 一 个 主要 原因 是 ，GPU 架 构 的 发 展 大 大 缩短 了 DNN 的 训练 时 间 。 

















DNN 架 构 有 很 多 种 ， 它 们 都 是 为 专门 的 应 用 问题 而 设计 的 。 本 书后 续 








同时 展示 一 些 用 TensorFlow 框 架 创 建 的 应 用 示例 。 
本 章 末 尾 概述 了 儿 种 常见 的 深度 学 习 框 架 。 


下 一 章 将 正式 踏 和 深度 学 习 的 大 门 ， 介 绍 TensorFlow 软 件 库 。 我 们 会 描述 其 主要 特性 ， 讲 解 
如 何 安装 该 框架 ， 并 配置 第 一 个 工作 会 话 。 
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详细 介绍 这 些 架 构 ， 


TensorFlow 初 探 








TensorFlow 是 一 个 数学 软件 ， 同 时 也 是 一 个 开源 的 机 需 智 能 软件 库 ， 由 Google Brain 团 队 于 
2011 年 开发 。 开 发 TensorFlow 的 最 初 目标 是 进行 机 器 学 习 和 深度 神经 网 络 方面 的 研究 ， 然 而 ， 该 
系统 在 很 多 其 他 领域 也 非常 适用 。 


TensorFlow 的 名 字 来 源 于 一 种 称 为 张 量 ( tensor ) 的 数据 模型 和 代表 TensorFlow 执 行 模型 的 
数据 流 图 。2015 年 ， 谷 歌 采用 Apache 2.0 协 议 开 源 了 TensorFlow 及 其 所 有 参考 实例 ， 并 将 其 所 有 
源 代 码 发 布 在 GitHub 上 。 随 后 ， 随 着 TensorFlow 在 学 术 界 、 工 业界 的 广泛 使 用 ， 谷 歌 发 行 了 其 稳 
定 版 本 1.0， 拥 有 统一 API。 


本 章 将 会 根据 你 的 需求 和 TensorFlow 1.x 版 本 那些 令 人 振奋 的 特性 , 描述 TensorFlow 的 主要 功 
能 。 以 下 主题 将 会 得 到 详细 讨论 : 











口 总 览 

口 TensorFlow 安 装 与 入 门 

a 计算 图 

口 编程 模型 

口 数据 模型 

口 TensorBoard 

口 实现 单个 输入 神经 元 

口 迁移 到 TensorFlow 1.x 版 本 
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TensorFlow 是 采用 数据 流 图 进行 数值 计算 的 开源 软件 库 ， 方便 机 器 学 习 从 业者 完成 更 多 数据 
密集 型 计算 。 它 为 常见 的 深度 学 习 算 法 提供 了 一 些 健壮 的 实现 。 流 图 中 的 节点 代表 数学 操作 ， 边 
表示 多 维 张 量 ， 用 于 保证 边 和 节点 之 间 的 联系 。TensorFlow 提 供 了 一 个 灵活 的 架构 ， 使 你 仅 通过 
一 个 API 就 能 有 效 利 用 桌面 、 服 务 器 乃至 移动 设备 上 的 一 个 或 多 个 CPU 或 GPU 的 计算 能 力 。 
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2.1.1. TensorFlow 1.x 版 本 特性 


TensorFlow 1.0 对 API 的 改进 有 些 是 不 能 向 后 兼容 的 。 也 就 是 说 , 在 TensorFlow 0.x 版 本 上 运行 
正常 的 程序 , 有 可 能 在 1.x 版 本 上 无 法 运行 。 这 些 API 的 变化 是 为 了 保证 其 内 部 一 致 性 。 换 句 话说 ， 
谷歌 在 TensorFlow 1.x 的 生命 周期 内 没有 计划 对 之 前 版 本 进行 什么 大 的 改进 。 


在 TensorFlow 1.x 版 本 中 ，Python API 被 修改 得 更 接近 NumPy， 这 使 得 该 版 本 在 数组 计算 方面 
更 加 稳定 。 这 一 版 本 还 引入 了 Java 和 GO 这 两 个 试验 API, 对 Java 和 GO 语言 开发 者 来 说 是 个 好 消息 。 


谷歌 还 开发 了 一 个 新 的 工具 ， 名 为 TensorFlow 调 试 器 (ttdbg )。 该 工具 为 命令 行 界面 ， 是 用 
来 在 线 调 试 TensorFlow 程 序 的 API。 用 于 物体 识别 和 定位 、 基 于 相机 的 图 像 风 格 化 的 新 的 Android 
演示 程序 (https://github.com/tensorflow/tensorflow/tree/r1.0/tensorflow/examples/android ) 已 上 线 ， 
可 供 参 考 。 


现在 ， 可 以 通过 Anaconda 和 Docker 镜 像 安装 TensorFlow。 最 重要 的 是 ， 针 对 TensorFlow 图 的 
CPU 和 GPU 计算 ， 谷 歌 为 其 引入 了 一 种 新 的 领域 特定 编译 器 ， 名 为 加 速 线性 代数 (Accelerated 
Linear Algebra, XLA) 。 













































































2.1.2 ”使 用 上 的 改进 
TensorFlow 1.x 版 本 提供 的 主要 特性 如 下 。 


口 运算 速度 更 快 : TensorFlow 1.0 版 本 升级 的 主要 改进 是 ， 速 度 显 著 提 高 。 以 inception v3 模 

型 为 例 ， 在 8 片 GPU 上 ， 其 运算 速度 提升 至 之 前 的 7.3 倍 ， 而 分 布 式 inception 模 型 ( 即 在 64 
片 GPU 上 训练 的 v3 模型 ) 速度 更 提升 至 58 倍 。 

O 灵活 性 : TensorFlow 不 仅仅 是 一 个 深度 学 习 或 机 器 学 习 软 件 库 , 还 是 一 个 强大 的 数学 函数 

库 ， 拥 有 大 量 可 以 解决 各 种 问题 的 函数 。 基 于 数据 流 图 的 执行 模型 使 你 能 够 利用 简单 的 
子 模型 构建 非常 复杂 的 模型 。TensorFlow 1.0 引 入 了 高 级 API1， 包 括 tf.layers 、 
tf.metrices、tf.losses 和 tf.keras 这 几 个 模块 。 这 些 模块 使 得 TensorFlow 十 分 适用 
于 高 级 别 神经 网 络 运算 。 

口 便携 性 : TensorFlow 可 运行 在 多 个 平台 上 ， 如 Windows、Linux、Mac 和 移动 计算 平台 CHI 

Android ) 等 。 

口 便于 调试 : TensorFlow 提 供 TensorBoard 工 具 ， 可 对 开发 的 模型 进行 分 析 。 

口 统一 的 API: TensorFlow 提 供 了 一 种 非常 灵活 的 架构 ， 使 你 可 以 仅 用 一 个 API 在 桌面 、 服 

务 器 或 移动 设备 等 平台 上 的 一 个 或 多 个 CPU 或 GPU 上 部 署 运 算 。 

口 便捷 的 GPU 计算 : TensorFlow 能 够 自动 对 内 存 和 使 用 数据 进行 管理 和 优化 。 现 在 , 你 可 以 

使 用 NVIDIA、cuDNN 和 CUDA 工 具 包 , 在 自己 的 计算 机 上 进行 大 规模 、 数 据 密集 型 GPU 

计算 。 
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也 可 供 本 书 读者 研究 学 习 。 























O 易 用 性 : TensorFlow 适 用 于 各 界 人 士 。 它 可 以 服务 在 校生 、 研 究 人 员 和 深度 学 习 从 业者 ， 


口 轻松 投产 : 最 近 , 采用 神经 网 络 模型 的 机 器 翻译 已 投入 生产 。TensorFlow 1.0 的 Python API 


极其 稳定 ， 可 以 保证 其 应 用 到 生产 层面 时 ， 选 择 需要 的 新 功能 ， 而 无 需 对 现 有 产品 的 代 





码 做 过 多 改动 。 
口 可 扩展 性 : TensorFlow 是 一 个 相对 较 新 的 技术 , 人 们 仍 在 不 断 对 其 进行 开发 、 改 进 








它 也 具有 高 度 可 扩展 性 , 其 源 代 码 公 开 在 GitHub E ( https://github.com/tensorflow/tensorflow )。 


如 果 TensorFlow 里 没有 你 需要 的 低级 数据 操作 符 ， 也 可 以 自己 用 C++ 编写 并 添加 到 相 








书写 源 代码 ， 为 TensorFlow 的 改进 贡献 着 自己 的 一 份 力 量 。 





特 尔 、eBay、Qualcomm、SAM、Dropbox、DeepMind、 爱 彼 迎 、Twitter 等 。 





2.1.3 TensorFlow 安装 与 入 门 





EAR 


O 支持 性 : TensorFlow 拥 有 一 个 巨大 的 开发 者 和 用 户 社区 , 成 员 们 通力 合作 , 提供 使 用 反馈 、 


口 使 用 广泛 : 众多 科技 巨头 在 其 商业 产品 里 使 用 了 TensorFlow 框 架 。 例 如 ARM、 和 谷歌、 英 


现在 ，TensorFlow 支 持 许多 平台 上 的 安装 ， 如 Linux、Mac OS 和 Windows。 你 也 可 以 通过 
TensorFlow 在 GitHub 上 最 新 的 源 代码 进行 编译 和 安装 。 男 外 ， 如 果 你 的 计算 机 平台 是 Windows， 
那么 可 以 通过 虚拟 机 安装 ， 或 安装 新 发 布 的 TensorFlow Windows 版 。TensorFlow 的 Python API 支 
持 Python 2.7 和 Python 3.3+, 所 以 安装 TensorFlow 之 前 需要 先 安装 Python。 Cuda Toolkit 7.5 和 cuDNN 
v5.1+ 也 是 必须 安装 的 。 本 章 将 展示 如 何 安装 并 开始 使 用 TensorFlow。 对 TensorFlow 在 Linux 上 的 


























安装 我 们 叙述 得 较为 详细 ， 而 Windows 上 的 安装 方法 也 给 出 了 简要 讲解 。 


qp 注意 ， 从 这 一 节 起 ， 我 们 给 出 的 源 代 码 均 基于 Python 2.7。 如 果 你 需要 兼容 


Python 3.3+ 版 本 的 对 应 源 代码 ， 请 至 Packt 代 码 仓库 查看 。 


个 TensorFlow 在 Mac OS 上 的 安装 与 Linux 大 同 小 异 。 更 多 细节 参见 https:/www. 


tensorflow.org/install/install mac. 


2.2 Æ Linux 上 安装 TensorFlow 





本 节 介 绍 如 何在 Ubuntu 14.04 或 更 高 版 本 上 安装 TensorFlow。 此 处 的 安装 指南 也 基本 
其 他 Linux 发 行 版 。 


为 平台 选择 安装 版 本 


适用 于 


开始 执行 正式 的 安装 步 又 之 前 ， 需 要 确定 在 你 的 平台 上 应 该 安装 TensorFlow 的 哪个 版 本 。 
TensorFlow 在 GPU 、CPU 上 均 可 运行 数据 密集 型 张 量 应 用 。 因 此 ， 你 应 当 为 你 的 平台 选择 以 下 版 
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本 之 一 。 


O 仅 支 持 CPU 运 算 的 TensorFlow: 如 果 你 的 设备 上 没有 配备 GPU ( 如 NVIDIA )， 那 么 必须 
安装 使 用 CPU 版 本 的 TensorFlow。 该 版 本 安装 十 分 简单 ， 只 需 $~10 分 钟 即 可 完成 。 

O 支持 GPU 运算 的 TensorFlow: 你 可 能 已 了 解 到 ， 深 度 学 习 应 用 一 般 需要 极 高 的 数据 密集 
型 计算 资源 。TensorFlow 也 不 例外 , 但 它 可 以 利用 GPU 资源 显著 加 速 数据 运算 和 分 析 ， 而 
不 仅仅 依赖 于 CPU 的 计算 能 力 。 因 此 ， 如 果 你 的 机 器 上 装 有 NVIDIA GPU 硬件 ,那么 最 好 
安装 使 用 GPU 版 本 的 TensorFlow。 

















2.3 3j TensorFlow 启用 NVIDIA GPU 


TensorFlow 的 GPU 启用 版 本 有 几 个 安装 要 求 ， 如 64 位 Linux Python 2.7 ( 或 Python 3 的 3.3 以 
EIRA ), NVIDIA CUDA 7.5( Pascal GPU 需要 安装 CUDA8.0 ), NVIDIA cuDNN v4.0 (最低 ) 或 
v5.1 (推荐 )。 更 具体 地 说 ， 当 前 的 TensorFlow 仅 支持 使 用 NVIDIA 工 具 包 和 软件 的 GPU 计算 。 以 
下 软件 必须 安装 到 你 的 机 器 上 。 


2.3.1 第 1 步 : 安装 NVIDIA CUDA 
安装 NVIDIA GPU 版 本 的 TensorFlow 之 前 ， 要 先 安装 CUDA Toolkit 8.0 及 与 之 相关 的 NVIDIA 
驱动 。 


D 更 多 细节 信息 参见 以 下 NVIDIA 文 档 https://developer.nvidia.com/cuda-downloads。 


请 移 步 https://developer.nvidia.com/cuda-downloads 下 载 安 装 需 要 的 包 。 界 面 如 图 2-1 所 示 。 


Select Target Platform @ 


Click on the green buttons that describe your target platform. Only supported platforms will be shown. 


Operating System | Mac osx | 
Architecture @ 
Version ma 























图 2-1 不 同 平台 上 可 用 的 CUDA 包 
另外 ， 切 记 要 将 Cuda 安 装 路 径 添 加 到 环境 变量 LD_LIBRARY_PATH 中 。 
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2.3.2 第 2 步 : XC NVIDIA cuDNN v5.1+ 


CUDA 工 具 包 安装 完成 后 ， 请 至 https:/developernvidia.com/cudnn F X Linux fig AX AY) cuD NN 
v5.1 库 。 界 面 如 图 2-2 所 示 。 


cuDNN Download E 


DNN is a GPU-accelerated library of primitives for deep neural networks. 














V| | Agree To the Terms of the cuDNN Software License Agreement 








Please check your framework documentation to determine the recommended version of cuDNN. 
If you are using cuDNN with a Pascal (GTX 1080, GTX 1070), version 5 or later is required. 




















图 2-2 不 同 平台 上 可 用 的 cuDNN v5.1 库 
下 载 后 ， 解 压 文件 并 将 其 复制 到 CUDA 工 具 包 的 路 径 (假设 为 /usr/1ocal/cuda/ ): 














$ sudo tar -xvf cudnn-8.0-linux-x64-v5.1.tgz -C /usr/local 


请 注意 ， 若 要 安装 cuDNN v5.1 库 ， 必 须 在 https://developer.nvidia.com/accelerated- 
computing-developer 注 册 加 入 “加 速 运算 开发 者 计划 ”。 


成 功 安 装 cuDNN v5.1 库 后 ， 务 必 创 建 CUDA_HOME 环 境 变量 。 
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2.3.3 #324: 确定 GPU KAY CUDA 计算 能 力 为 3.0+ 


若 要 正常 使 用 第 1 步 和 第 2 步 中 安装 的 库 和 工具 , 请 确定 你 的 机 器 的 GPU 卡 CUDA 计 算 能 力 在 
3.0 以 上 。 


2.3.4 第 4 步 : 安装 libcupti-dev Æ 


最 后 ， 你 需要 在 机 器 上 安装 1ibcupti-daev 库 。 它 是 NVIDIA CUDA 的 依赖 库 ， 可 提供 高 级 
分 析 支 持 。 要 安装 该 库 ， 请 输入 以 下 命令 : 


$ sudo apt-get install libcupti-dev 








2.3.5 $52: 安装 Python (3% Python 3) 


如 果 你 对 Python 或 TensorFlow 不 其 熟悉 ， 我 们 建议 你 使 用 pip 安 装 TensorFlow。Ubuntu 自 带 
Python 2+ 和 3.3+。 使 用 以 下 命令 ， 检 查 Python 或 Python 3 是 否 已 安装 到 系统 : 




















$ python -V 
期 望 输出 : 


Python 2.7.6 
$ which python 


期 望 输出 : 

/usr/bin/python 

对 于 Python 3.3+， 使 用 以 下 命令 : 

$ python3 -V 

期 望 输出 : 

Python 3.4.3 

如 果 你 希望 安装 某 个 具体 版 本 ， 输 入 : 


$ sudo apt-cache show python3 
$ sudo apt-get install python3=3.5.1* 





2.8. B64: 安装 并 升级 PIP (或 PIP3) 


Ubuntu 一 般 会 自 带 pip 或 pip3 包 。 使 用 以 下 命令 查看 pip 或 pip3 是 否 已 安装 : 





$ pip -V 


2.4 如 何 安装 TensorFlow 23 














期 望 输出 : 


pip 9.0.1 from /usr/local/lib/python2.7/dist-packages/pip-9.0.1-py2.7.egg 
(python 2.7) 


对 于 Python 3.3+， 使 用 下 述 命令 : 








$ pip3 -V 
其 望 的 输出 如 下 : 

pip 1.5.4 from /usr/lib/python3/dist-packages (python 3.4) 

强烈 推荐 安装 pip 8.1 以 上 版 本 或 pip3 1.5 以 上 版 本 ， 以 获得 更 好 的 结果 和 更 流畅 的 运算 过 程 。 
如 果 未 安装 pip 8.1+ 或 pip3 1.5+， 可 以 安装 或 升级 到 最 新 版 pip。 安 装 命令 如 下 : 

















$ sudo apt-get install python-pip python-dev 


对 于 Python 3.3+， 使 用 下 述 命令 : 





$ sudo apt-get insatll python3-pip python-dev 


2.8.7. B74: 安装 TensorFlow 


2.4 节 将 一 步 步 详 细 叙 述 如 何 安装 TensorFlow 最 新 版 本 ， 包 括 CPU 版 本 ， 以 及 含有 NVIDIA 
cuDNN 及 CUDA 计 算 能 力 支 持 的 GPU 版 本 。 





2.4 如 何 安装 TensorFlow 


你 可 以 使 用 多 种 方法 将 TensorFlow 安 装 到 你 的 机 器 上 ， 如 使 用 virtualenv 、pip 、Docker 和 
Anaconda 等 。 然 而 ， 使 用 Docker 和 Anaconda 安 装 较为 复杂 ， 所 以 我 们 决定 使 用 pip 和 virtualenv 


安装 。 














ANS 


感 兴趣 的 读者 可 以 在 https://wwwi.tensorflow.org/install/ 上 找到 使 用 Docker 和 
Anaconda 的 安装 方法 。 


2.4.1 直接 使 用 pip 安装 


如 果 你 顺利 完成 了 步骤 1~6， 就 可 以 使 用 以 下 命令 安装 TensorFlow 了 。Python 2.7 CPU 版 本 


TensorFlow 安 装 命令 如 下 : 





$ pip install tensorflow 


Python 3.x CPU 版 本 安装 命令 为 : 
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$ pip3 install tensorflow 
Python 2.7 GPU 版 本 使 用 下 述 命令 : 
$ pip install tensorflow-gpu 


对 于 Python 3.x GPU 版 本 ， 使 用 : 





$ pip3 install tensorflow-gpu 

如 果 使 用 上 述 命令 安装 失败 ， 可 以 手动 输入 安装 包 网 址 ， 从 而 安装 最 新 版 本 TensorFlow， 即 
下 述 命令 : 

$ sudo pip install --upgrade TF_PYTHON_URL 

对 于 Python 3.x, WEH: 


$ sudo pip3 install --upgrade TF_PYTHON_URL 











上 述 两 条 命令 中 的 TF_PYTHON_URL 指 的 是 https://www.tensorflow.org/install/install linux 
#the_url of the tensorflow python package 中 TensorFlow 对 应 版 本 的 Python 安 装 包 地 址 。 





例如 ， 者 要 安装 最 新 的 CPU 版 TensorFlow ( 比如 v1.0.1 )， 使 用 命令 如 下 : 
$ sudo pip3 install --upgrade 


https://storage.googleapis.com/tensorflow/linux/cpu/tensorflow-1.0.1-cp34-cp34m- 
linux_x86_64.whl 


2.4.2 ”使 用 virtualenv 安装 
假设 你 的 系统 已 安装 了 Python 2+ (或 3+ ) 和 pip ( 或 pip3 )， 那 么 可 以 使 用 以 下 步 又 安装 


TensorFlow。 


(1) 使 用 下 述 命令 创建 virtualenv 环 境 : 





$ virtualenv --system-site-packages targetDirectory 


targetDirectory 指 的 是 virtualenv 的 根 路 径 。 该 路 径 默 认为 ~/tensorflow (当然 ， 
你 可 以 使 用 自 定义 路 径 )。 


(2) 使 用 如 下 命令 激活 virtualenv 环 境 : 





$ source ~/tensorflow/bin/activate # bash, sh, ksh, or zsh 
$ source ~/tensorflow/bin/activate.csh # csh or tcsh 


如 果 步 又 2 中 的 命令 生效 ， 那 么 终端 里 将 会 显示 : 





(tensorflow) $ 
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(3) 安装 TensorFlow: 


使 用 下 述 命 令 ， 在 已 激活 的 virtualenv 环 境 中 安装 TensorFlow。 对 于 Python 2.7 CPU 版 本 ， 
使 用 : 


(tensorflow)$ pip install --upgrade tensorflow ER 


(4) 对 于 Python 3.x CPU 版 本 ， 使 用 下 述 命令 : 








(tensorflow)$ pip3 install --upgrade tensorflow 
(5) 对 于 Python 2.7 GPU 版 本 ， 命 令 为 : 

(tensorflow)$ pip install --upgrade tensorflow-gpu 
(6) 而 Python 3.x GPU 版 本 的 命令 为 ; 

(tensorflow)$ pip3 install --upgrade tensorflow-gpu 


若 上 述 命令 成 功 执行 ， 则 TensorFlow 安 装 成 功 ， 跳 过 下 一 步 ; 若 失败 ， 执 行 下 一 步 。 


若 执 行 失败 ， 尝 试 采 用 以 下 格式 的 命令 进行 安装 。Python 2.7 (选择 CPU 或 GPU 版 本 对 应 
的 URL ) 的 命令 为 : 


(tensorflow)$ pip install --upgrade TF PYTHON URL 


对 于 Python 3.x ( 同样 选择 CPU 或 GPU 版 本 对 应 的 URL ), 命令 为 : 





(tensorflow)$ pip3 install --upgrade TF PYTHON URL 


不 同 版 本 的 TensorFlow 对 应 不 同 的 rF_PYTHON_URL 值 。 这 个 值 指 的 是 https://www.tensor 
flow.org/install/install linux#the_url of the tensorflow python package 中 TensorFlow 对 应 版 本 的 
Python 安装 包 地 址 。 


例如 ， 若 要 安装 最 新 的 CPU 版 TensorFlow ( 比如 v1.0.1 )， 使 用 命令 如 下 : 

















(tensorflow)$ pip3 install --upgrade 
https://storage.googleapis.com/tensorflow/linux/cpu/tensorflow-1.0.1-cp34-cp34m- 
linux x86 64.whl 


S piede 到 3 中 的 安装 是 否 成 功 ， 必 须 激 活 虚 拟 环境 。 如 果 virtualenv 环 境 尚未 激活 ， 执 行 
述 命令 中 的 一 


$ source -/tensorflow/bin/activate # bash, sh, ksh, or zsh 
$ source -/tensorflow/bin/activate.csh # csh or tcsh 
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$ rm -r targetDirectory 
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2.4.3 ”从 源 代码 安装 


直接 使 用 pip 安 装 的 TensorFlow 可 能 会 在 使 用 TensorBoard 时 出 现 问题 。 因 此 ， 我 建议 直接 从 
源 代码 编译 安装 TensorFlow。 


























ae X $59 ih £ https;//github.com/tensorflow/tensorflow/issues/530 3 Æ . 








若 要 从 源 代 码 编译 生成 TensorFlow, 首先 要 在 机 器 上 安装 软件 自动 编译 和 测试 工具 Bazel。 如 
果 尚 未 安装 ， 可 运行 以 下 命令 从 APT 仓 库 安装 Bazel ( 推荐 ): 






































$ sudo apt-get install software-properties-common swig 

$ sudo add-apt-repository ppa:webupd8team/java 

$ sudo apt-get update 

$ sudo apt-get install oracle-java8-installer 

$ echo "deb http://storage.googleapis.com/bazel-apt stable jdk1.8" | 

sudo tee /etc/apt/sources.list.d/bazel.list 

$ curl https://storage.googleapis.com/bazel-apt/doc/apt-key.pub.gpg | sudo 
apt-key add - 

$ sudo apt-get update 

$ sudo apt-get install bazel 


或 者 ， 根 据 http:/bazel.io/docs/instalLhtml 所 示 步 又， 下 载 二 进 制 安装 包 进 行 安装 。 
安装 所 需 依赖 包 


$ sudo apt-get install pkg-config zip g++ zliblg-dev unzip 





到 https://github.com/bazelbuild/bazel/releases F ii Bazel — i t| 2 2 4 bazel-0.5.2-installer- 
linux-x86_64.sh。 该 安装 包 内 包含 GDK， 但 若 机 器 中 已 安装 GDK， 也 可 以 使 用 该 包 。 还 有 一 个 
bazel-0.5.2-without-jdk-installer-linux-x86 64.sh 版 本 ， 适 用 于 已 安装 GDK 8 的 机 需 。 


执行 下 述 命令 运行 安装 包 并 设置 环境 ( 更 多 细节 参见 http://bazel.io/docs/install.html ): 


$ chmod +x bazel-0.5.2-installer-linux-x86_64.sh 
$ ./bazel-0.5.2-installer-linux-x86 64.sh --user 


Bazel 安 装 完 成 后 ， 执 行 下 述 命令 安装 Python 依赖 包 : 

$ sudo apt-get install python-numpy swig python-dev 
接着 即 可 执行 TensorFlow 的 源码 安装 步 又; 

将 整个 TensorFlow 仓 库 克 隆 到 本 地 : 


$ git clone --recurse-submodules https://github.com/tensorflow/tensorflow 


使 用 以 下 命令 配置 安装 模式 (GPU 或 CPU ): 





$ ./configure 
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使 用 Bazel 创 建 TensorFlow 安 装 包 : 
$ bazel build -c opt //tensorflow/tools/pip_package:build_pip_package 


若 要 编译 GPU 支持 ， 使 用 以 下 命令 : 























$ bazel build -c opt --config=cuda //tensorflow/tools/pip package:build pip package 


最 后 ， 用 编译 好 的 安装 包 安 装 TensorFlow。 下 面 展示 了 不 同 Python 版 本 的 安装 命令 。 

















对 于 Python 2.7: 
$ sudo pip install --upgrade /tmp/tensorflow_pkg/tensorflow-1.0.11-*.whl 
对 于 Python 3.5: 


$ sudo pip3 install --upgrade /tmp/tensorflow_pkg/tensorflow-1.0.1-*.whl 


此 处 .whl 的 具体 文件 名 取决 于 你 的 平台 ( 也 就 是 系统 )。 


2.5 在 Windows 上 安装 TensorFlow 





如 果 你 的 操作 系统 是 Windows， 且 确实 不 打算 安装 Linux 系 统 ， 那 么 可 以 在 Linux 虚 拟 机 上 安 
装 TensorFlow， 或 安装 新 发 布 的 Windows 版 TensorFlow。 











2.5.1 在 虚拟 机 上 安装 TensorFlow 


如 果 机 器 上 没有 安装 Linux 系 统 , 你 可 以 在 虚拟 机 上 安装 TensorFlow。 使 用 免费 软件 VirtualBox 
可 以 在 Windows 上 创建 虚拟 机 并 安装 一 个 64 位 Ubuntu 系统 。 这 样 ， 在 此 虚拟 机 上 ， 你 就 可 以 直接 
使 用 2.4 节 中 Linux 系 统 下 的 方法 安装 TensorFlow。 




















需要 注意 的 是 ， 如 果 你 需要 TensorFlow 的 GPU 启用 版 本 ， 我 们 不 推荐 采用 此 方式 安装 。 因 为 
虚拟 机 或 其 他 容器 ( 如 Docker ) 无 法 直接 访问 宿主 机 的 NVIDIA GPU 资源 。 





2.5.2 ”直接 安装 到 Windows 


2016 年 11 月 起 ，TensorFlow 开 始 发 布 原 生 Windows 版 本 ， 用 户 终于 可 以 不 必 借 助 虚拟 机 ， 而 
直接 在 Windows 上 安装 TensorFlow T 。 








目前 TensorFlow 的 Windows 版 本 仅 支 持 64 位 Python 3.5.x。 注 意 ，Python 3.5.x 对 应 pip3 包 管理 
工具 ， 所 以 安装 TensorFlow 时 应 使 用 pip3 命 令 。 以 管理 员 权 限 运 行 Windows 命 令 提示 符 ， 输 入 以 
下 命令 安装 TensorFlow CPU 版 本 





C:\> pip3 install --upgrade tensorflow 
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若 需要 安装 GPU 版 本 ， 则 输入 以 下 命令 : 
C:\> pip3 install --upgrade tensorflow-gpu 


注意 ，Windows 上 的 TensorFlow GPU 版 本 同样 需要 CUDA Toolkit 8.0 和 cuDNN v5.1 文 持 ， 
此 请 先 选择 相应 的 Windows 版 本 安装 ， 并 创建 环境 变量 。 若 安装 过 程 遇 到 问题 或 需要 获取 更 多 安 
装 细节 ， 请 到 https://www.tensorflow.org/install/install_ windows 查 看 官方 安装 指南 。 

















2.6 ”测试 安装 是 否 成 功 
打开 Python 终 端 ， 输 入 以 下 代码 : 
>>> import tensorflow as tf 


>>> hello = tf.constant ("Hello TensorFlow!") 
>>> sess=tf.Session() 


为 测试 TensorFlow 安 装 是 否 成 功 ， 输 入 : 

















>>> print sess.run(hello) 
如 果 安 装 成 功 ， 你 将 会 看 到 以 下 输出 : 


Hello TensorFlow! 


2.7 计算 图 


每 当 执 行 一 项 操作 ， 比 如 训练 一 个 神经 网 络 ， 或 对 两 个 整 型 变量 求 和 ，TensorFlow 内 部 会 将 
运算 过 程 表示 为 一 个 数据 流 图 (或 计算 图 )。 


计算 图 是 由 以 下 部 分 组 成 的 有 向 图 : 


口 一 组 节点 ， 每 个 节点 代表 一 项 操作 ; 
a 一 组 有 向 边 ， 每 条 边 代 表 被 操作 的 那 部 分 数据 。 


TensorFlow 具 有 了 两 种 类 型 的 边 。 








O 普通 边 : 在 节点 之 间 承 载 数据 结构 的 唯一 单元 。 前 一 个 节点 中 操作 的 输出 成 为 下 一 个 操 

作 的 输入 。 两 个 节点 之 间 的 连 边 负 责 值 的 传递 。 

O 特殊 边 : 这 种 边 不 负责 传递 值 。 它 表示 节点 A 与 B 之 间 的 一 个 控制 依赖 。 也 就 是 说 ， 只 有 
在 节点 A 中 的 操作 执行 完成 后 ， 才 能 执行 节点 B 中 的 操作 。 

TensorFlow 定 义 了 控制 依赖 , 为 独立 操作 指定 执行 顺序 , 作为 限制 内 存 使 用 峰值 的 一 种 方法 。 


计算 图 的 基本 格式 类 似 于 流程 图 。 简 单 运算 z=4dxc=(a+5b)xc 的 计算 图 如 图 2-3 所 示 。 
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图 2-3 一 个 简单 的 计算 图 
图 2-3 中 ,圆圈 代表 计算 图 中 的 操作 ， 和 矩形 代表 计算 图 中 的 数据 。 
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TensorFlow 中 的 另 一 个 重要 概念 是 延迟 执行 ， 即 在 计算 图 的 创建 阶段 ， 你 可 以 设计 非常 复杂 
的 表达 式 ( 我们 称 为 高 度 复合 )。 在 你 随后 对 其 进行 运行 、 评 估 时 ，TensorFlow 会 自动 对 操作 进 
行 优化 调度 ( 如 利用 GPU 令 代码 中 各 独立 部 分 并 行 执行 )， 使 其 以 最 优 效 率 运 行 。 


这 样 ， 如 果 你 必须 处 理 含有 大 量 节 点 和 边 的 极其 复杂 的 模型 ， 计 算 图 可 以 帮助 分 散 计算 量 。 
最 后 ， 神 经 网 络 可 以 类 比 为 一 种 复合 函数 ， 网 络 中 的 每 个 层 可 以 代表 一 个 自 变 量 函 数 。 
下 一 节 将 基于 这 种 思想 ， 详 细 阐述 计算 图 在 神经 网 络 实现 中 的 作用 。 





神经 网 络 的 计算 图 表示 
以 之 前 提 到 过 的 前 馈 神 经 网 络 为 例 ， 它 可 以 作为 一 个 异 或 门 的 模型 ， 如 图 2-4 所 示 。 

















HAE | BEE | HE 


图 2-4 ” 异 或 问题 中 的 神经 网 络 架构 
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如 果 你 想 实现 网 络 ， 图 2-4 表 示 的 架构 可 能 不 会 特别 有 用 。 因 为 它 没 有 考虑 权重 和 偏差 向 量 ， 
而 这 两 个 部 分 在 反 向 传播 算法 的 训练 阶段 是 很 关键 的 。 因 此 , 将 网 络 表示 为 计算 图 C 即 数 据 在 网 
络 中 流动 的 模式 ) 就 显得 尤为 方便 。 


为 了 方便 解释 ， 查 看 图 2-5。 




















图 2-5” 异 或 神经 网 络 的 计算 图 实现 








L3 表 示 输 出 层 ，L2 表 示 隐 茂 层 ，L1 表 示 输 入 层 。 同 样 地 ，02 表 示 第 二 层 和 第 三 层 之 间 的 权 
重 向 量 ，01 表 示 第 一 层 和 第 二 层 之 间 的 权重 向 量 。o 符 号 仅 代 表 节 点 内 部 的 sigmoid 操 作 (但 这 些 
节点 的 输出 将 用 L 符 号 表示 ， 即 L1、L2 和 L3 )。 

图 2-$ 这 种 表示 形式 中 ， 每 个 节点 代表 的 不 是 单一 的 神经 元 ， 而 是 一 种 操作 。 同 时 ， 箭 头 不 
代表 连接 关系 ， 而 代表 网 络 中 的 信息 流 。 

计算 图 一 步 一 步 向 我 们 展示 了 函 数 执 行 顺序 ， 以 及 该 函数 要 操作 哪些 输入 数据 。 


L2 层 的 函数 要 操作 两 个 输入 : LI 层 的 输出 〈 一 个 向 量 ) 和 权重 向 量 01。L3 函数 操作 L2 的 输 
出 和 02， 并 给 出 最 终 输 出 。 


























这 种 思想 又 引出 TensorFlow 的 一 个 特色 : 编程 模型 。 


2.9 编程 模型 
一 个 TensorFlow 程 序 的 执行 过 程 一 般 可 分 为 3 个 阶段 : 


a 创建 计算 图 ; 
口 运行 一 个 会 话 ， 以 完成 计算 图 中 定义 的 操作 ; 
口 输出 数据 集合 和 分 析 。 


这 几 个 主要 步骤 定义 了 TensorFlow 的 编程 模型 。 
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以 下 面 的 代码 为 例 ， 在 此 我 们 希望 将 两 个 数 相 乘 。 


import tensorflow as tf 
with tf.Session() as session: 





x = tfi.placeholder (tf.float32, [1],name="x") 
y = tf.placeholder(tf.float32,[1],name-"y") 
z = tf.constant(1.0) 
Ve tS SKI AZ 
x umo [190] 
y output = session.run(y,(x:x in)) 
print (y. output) 
当然 ， 计 算 两 个 数 的 乘积 还 不 至 于 用 上 TensorFlow; 另外 ， 对 于 这 么 一 个 简单 的 操作 ， 上 面 














的 代码 行 数 也 太 多 了 。 但 是 , 该 示例 真正 想 要 说 明 的 是 如 何 安 排 代码 结构 。 从 最 简单 的 示例 ( 比 
如 这 一 个 )， 到 最 复杂 的 代码 ， 该 格式 都 适用 。 


另外 ,该 示例 还 包含 了 几 种 最 基本 的 命令 ,这 些 命令 在 本 书后 续 的 所 有 代码 中 几乎 都 会 出 现 。 


请 注意 ， 在 本 章 和 所 有 余下 章节 中 ， 我 们 展示 的 源 代码 都 基于 Python 2.7 语 法 。 不 过 ， 你 可 
以 在 Packt 代 码 仓库 中 找到 所 有 代码 的 Python 3.3+ 兼 容 版 本 。 


示例 第 一 行 告诉 我 们 ，TensorFlow 库 被 导入 为 Ef: 




















import tensorflow as tf 


之 后 ，TensorFlow 操 作 符 将 被 表示 为 tf 加 一 个 点 .， 再 加 上 需要 用 到 的 其 他 操作 符 的 名 称 。 
下 一 行 会 使 用 tf .session() 指 令 ， 创建 一 个 对 象 session: 




















with tf.Session() as session: 


该 对 象 包 含 计算 图 ， 也 就 是 我 们 之 前 提 到 过 的 ， 需 要 执行 的 运算 。 
上 述 例 程 的 计算 如 图 2-6 所 示 。 








占 位 符 
x M 
y 
ee a 占 位 符 
常数 











图 2-6 ”将 输入 向 量 乘 以 常数 1.0 的 计算 图 表示 


接 下 来 的 两 行 代码 利用 占 位 符 (placeholder ) 的 概念 ， 定 义 了 变量 x 和 y。 通 过 占 位 符 ， 可 以 
定义 输入 变量 ( 本 例 中 的 变量 x )， 也 可 以 定义 输出 变量 ( 如 变量 y )。 














4 
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x = tf.placeholder(tf.float32, [1], name='x') 
y = tf.placeholder(tf.float32, [1], name='y') 


因此 , 占 位 符 便 作为 图 中 元 素 和 该 问题 中 的 运算 数据 之 间 的 接口 , 它 使 得 我 们 不 需要 真实 数 
据 ， 只 需要 对 数据 的 引用 ， 便 可 创建 自己 的 操作 并 建立 计算 图 。 

用 placeholder 子 数 定义 一 个 数据 或 张 量 需要 3 个 参数 。 第 一 个 是 数据 类 型 。 第 二 个 是 占 位 
符 的 形状 ， 本 例 中 为 一 个 一 维 张 量 ( https://www.tensorflow.org/versions/r0.8/api_docs/python/ 
framework.html#Tensor )， 含 有 一 个 条 目 。 第 三 个 是 变量 名 ， 选 择 清晰 合适 的 变量 名 对 代码 的 调 
试 和 分 析 大 有 神 益 。 

接 下 来 的 语句 定义 了 一 个 常数 (= 1.0 )， 并 命名 为 b: 

b = tf.constant (1.0) 


现在 ， 我 们 可 以 引入 想 要 计算 的 模型 了 。 模 型 中 的 参数 是 前 面 定义 的 占 位 符 及 常数 : 












































y sax ^b 
会 话 中 的 语句 表示 将 x 中 的 数据 与 常数 pb 相 乘 ， 并 将 乘法 操作 所 得 的 结果 赋值 给 占 位 符 y。 


接 下 来 的 代码 定义 了 计算 模型 。 我 们 的 模型 含有 一 个 输入 x， 所 以 创建 一 个 列表 x_in 与 占 位 
符 x 对 应 : 


xin [2] 
变量 x_in 的 值 为 2。 在 运算 过 程 中 ， 该 值 会 被 传人 占 位 符 x。 
最 后 ， 使 用 session .run 命 令 执 行 计算 图 : 








y_output = session.run([y], {x: x_in}) 


第 一 个 参数 是 待 计算 的 图 元 素 列表 ， 本 例 这 个 参数 只 有 [y] 。 第 二 个 参数 {x: x_in} 表 示 参 
与 运算 的 参数 及 其 真正 取 值 。 


session.run 返 回 y_output 作 为 传人 的 第 一 个 参数 中 每 个 图 元 素 的 输出 值 ， 其 中 的 每 个 值 
与 每 个 元 素 的 输出 值 对 应 。 


最 后 一 条 指令 负责 打印 结果 : 














9. print (y_output) 
不 要 忘记 ， 只 有 执行 session.run() 时 ， 程 序 才 会 开始 处 理 已 定义 的 图 元 素 。 
该 程序 可 以 处 理 非常 大 、 非 常 复杂 的 x 值 ， 所 以 可 以 创建 x_in 列 表 ， 并 使 其 指向 占 位 符 x。 
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2.10 数据 模型 


TensorFlow 的 数据 模型 由 张 量 表示 。 忽 略 那些 复杂 的 数学 定义 ， 可 以 说 ( TensorFlow 中 的 ) 
“ 张 量 ” 指 的 是 一 个 多 维 数 值 阵 列 。 


这 种 数据 结构 由 3 个 参数 描述 (rank), WR (shape) 和 数据 类 型 (type ). E 





2.40.1 E 


每 个 张 量 的 维度 单位 用 阶 来 描述 。 它 定义 了 张 量 的 维 数 ， 因此， 也 被 称 为 一 个 张 量 的 量 级 或 
张 量 的 z 个 维 。 零 阶 张 量 是 一 个 标量 ， 一 阶 张 量 是 一 个 向 量 ， 二 阶 张 量 是 一 个 和 矩阵。 





























下 面 的 代码 定义 了 TensorFlow 中 的 标量 、 向 量 、 撼 阵 和 立方 阵 (cube matrix )。 下 一 个 例子 
将 展示 阶 是 如 何 工作 的 。 

















import tensorflow as tf 


scalar. = en 

vector = tf.constant([1,2,3,4,5]) 

matrix = Sect s 25.3].7 [5,5561 ]3 

cube matrix = tf.constant([[[1],([21,1311, ((41, (51, (611, C071, (81, (9111 


print(scalar.get shape()) 
print(vector.get shape()) 
print (matrix.get shape()) 
print(cube matrix.get shape()) 


代码 的 输出 为 : 
O 

(5,) 

(2, 3) 

Bua. 2 


2.10.2 形状 
张 量 的 形状 指 的 是 其 行 数 和 列 数 。 下 面 的 代码 展示 了 前 面 定义 的 几 个 张 量 的 阶 与 形状 的 


>>scalar.get_shape() 
TensorShape ([]) 


>>vector.get_shape () 
TensorShape([Dimension(5)]) 
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»»matrix.get shape() 
TensorShape([Dimension(2), Dimension(3)]) 


»»cubel.get shape() 
TensorShape([Dimension(3), Dimension(3), Dimension(1)]) 


2.10.3 ”数据 类 型 
除了 阶 和 形状 ， 张 量 还 具有 数据 类 型 。 表 2-1 是 张 量 的 数据 类 型 汇总 表 。 
表 2-1 ” 张 量 的 数据 类 型 




















































































































数据 类 型 Python 表 示 Ho x 
DT FLOAT tf.float32 32 位 浮 点 型 
DT_DOUBLE tf.float64 64 位 浮 点 型 
DT INT8 tf.int8 8 位 有 符号 整 型 
DT_INT16 tf.int16 16 位 有 符号 整 型 
DT_INT32 tf.int32 32 位 有 符号 整 型 
DT_INT64 tf.int64 64 位 有 符号 整 型 
DT_UINT8 tf.uint8 8 位 无 符号 整 型 
DT_STRING tf.string 可 变 长 度 的 字 节 序列 。 张 量 中 的 每 个 元 素 都 是 一 个 字 节 序列 
DT_BOOL tf.bool 布尔 型 
DT_COMPLEX64 t£.complex64 复数 型 ， 由 两 个 32 位 浮 点 型 组 成 ， 分 别 作为 实 部 和 虚 部 
DT_COMPLEX128 t£.complex128 复数 型 ， 由 两 个 64 位 浮 点 型 组 成 ， 分 别 作为 实 部 和 虚 部 
DT_QINTS tf.qint8 8 位 有 符号 整 型 ， 在 量化 型 op 中 使 用 
DT_QINT32 tf.qint32 32 位 有 符号 整 型 ， 在 量化 型 op 中 使 用 
DT_QUINT8 tf.quint8 8 位 无 符号 整 型 ， 在 量化 型 op 中 使 用 




















我 们 相信 表 2-1 中 的 介绍 已 经 足够 清晰 完整 ， 因 此 不 再 专门 详细 介绍 每 一 种 数据 类 型 。 注 意 ， 
TensorFlow 中 数据 的 传递 需要 通过 其 API 与 NumPy 数 组 的 交互 来 完成 。 


若 要 使 用 常数 构建 张 量 ， 需要 将 一 个 NumPy 数 组 传人 tf .constant () 操作 符 ， 得 到 一 个 拥 
有 该 值 的 TensorFlow 张 量 。 代 码 如 下 : 


import tensorflow as tf 
import numpy as np 


tensor 1d = np.array([1,2,3,4,5,6,7,8,9,10]) 
tensor 1d = tf.constant(tensor 1d) 
with tf.Session() as sess: 

print (tensor 1d.get shape()) 

print sess.run(tensor 1d) 


运行 上 例 ， 获 得 的 输出 如 下 : 
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>>> 
(10,) 
[ 12.3 4 5 6& 7 € 9.10] 


若 要 使 用 变量 构建 张 量 , 将 变量 定义 为 NumPy 数 组 的 形式 ， 并 将 其 传人 tf .Variable 国 数 。 
结果 得 到 一 个 带 有 初始 值 的 变量 张 量 。 代 码 如 下 : m 








import tensorflow as tf 
import numpy as np 


tensor 2d - np.array([(1,2,3),(4,5,6),(7,8,9)]) 

tensor 2d - tf.Variable(tensor 2d) 

with tf.Session() as sess: 
sess.run(tf.global variables initializer()) 
print (tensor 2d.get shape()) 
print sess.run(tensor, 2d) 


输出 如 下 : 


>>> 


( 
LE 
[ 
[ 


为 方便 程序 在 Python 交互 环境 下 的 使 用 , 可 以 采用 InteractiveSession 类 ( https://www.tensorflow.org/ 
versions/r0.10/api_docs/python/client/#InteractiveSession ), 并 在 所 有 Tensor .eval () 和 Operation.run() 


调用 中 使 用 该 类 。 


import tensorflow as tf 
import numpy as np 





interactive session = tf.InteractiveSession() 
tensor - np.array([1,2,3,4,5]) 

tensor - tf.constant (tensor) 

print (tensor.eval()) 

interactive session.close() 


代码 运行 结果 如 下 : 


>>> 
[1- 2:.3..4.:5] 


这 个 类 为 交互 情境 下 ( 如 shell 或 IPython Notebook ) 的 使 用 提供 了 方便 一 一 编写 代码 时 无 需 
不 停 地 传递 Session 对 象 。 


TensorFlow 中 男 一 种 定义 张 量 的 方式 是 ， 使 用 tf .conbert_to_tensor 命 令 : 




















import tensorflow as tf 
import numpy as np 


tensor 3d = np.array([[[ 0, 1, 2],[ 3, 4, 5],[ 6, 7, 8]], 
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[[ 9, 10, 11],[12, 13, 14],[15, 16, 17]], 
[[18, 19, 20],[21, 22, 231.124, 25, 26]11) 


tensor 3d - tf.convert to tensor(tensor 3d, dtype-tf.float64) 
with tf.Session() as sess: 

print (tensor 3d.get shape()) 

print sess.run(tensor, 3d) 


其 输出 如 下 : 
DD 
C33. 38.31 
DP Oz Iu: 
34 Ae Sed 
6. 7. 8.) 
[ 95: AO, Es] 
T2.- 133 14..] 
15. 16. 17.]] 
LI FAB 19. 204] 
21. 22. 23.] 
24.41:25,-:265.]]:] 





2.10.4 变量 


TensorFlow 中 的 变量 是 承载 和 更 新 参数 的 对 象 。 变 量 必须 初始 化 ; 当然 ， 你 也 可 以 保存 或 恢 
复 变量 ， 用 于 代码 分 析 。 


变量 是 由 tf.variable() 语 名 创建 的 。 


在 接 下 来 的 例子 中 ， 我 们 希望 程序 实现 从 1 数 到 10: 
import tensorflow as tf 


创建 一 个 变量 ， 并 将 其 初始 化 为 标量 0: 





value = tf.Variable(0,name="value") 
assign() 和 ada() 操 作 符 仅 仅 是 计算 图 上 的 节点 ， 所 以 在 会 话 运行 之 前 ， 它 们 不 会 执行 : 


one = tf.constant (1) 
new value = tf.add (value, one) 
update value-tf.assign(value,new value) 























initialize var - tf.global variables initializer() 
可 以 将 计算 图 实例 化 : 


with tf.Session() as sess: 
sess.run(initialize_var) 
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print (sess.run(value) ) 

for | in range(10): 
sess.run(update value) 
print(sess.run(value)) 


前 已 经 提 到 过 ， 张 量 对 象 是 指向 操作 结果 的 一 个 指针 ， 并 非 真 的 含有 操作 的 输出 值 : 





> 
0 
1 
2 
3 
4 
5 
6 
7 
8 
9 
1 


0 


>>> 


统计 模型 中 的 参数 一 般 被 表示 为 一 系列 变量 。 例 如 ， 你 可 能 想 要 将 神经 网 络 的 权重 
存储 为 一 个 变量 型 张 量 。 在 训练 阶段 ， 你 会 通过 重复 运行 训练 图 来 升级 这 个 张 量 。 


2.10.5 HWE 


为 取 回 操作 的 输出 ， 需 要 调用 session 对 象 中 的 run 0 函数 ， 并 传人 需要 取 回 的 张 量 。 除 了 
可 以 取 回 单一 的 张 量 节点 外 ， 你 还 可 以 取 回 多 个 张 量 。 在 接 下 来 的 例子 里 ， 通 过 调用 run O 同时 
取 回 求 和 sum_ 和 乘积 mul_ 张 量 : 


























import tensorflow as tf 

constant_A = tf.constant([100.0]) 
constant B = tf.constant([300.0]) 
constant C = tf.constant ([3.0]) 

sum = tf.add(constant A,constant B) 
mul = tf.multiply (constant A,constant C) 


with tf.Session() as sess: 


result - sess.run([sum ,mul ]) 
print (result) 
输出 如 下 : 


Pd 
[array([ 400.],dtype=float32),array([ 300.],dtype-float32)] 


产生 张 量 输出 值 需要 的 所 有 op 都 被 运行 了 一 遍 ( 而 不 仅仅 是 每 个 张 量 运行 一 遍 )。 














^x = 
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2.10.6 注入 


APAE ART EFI Ee a eR Eo EAL] H EDA A 
run PKA}, 通过 feedq_dqict 传 递 参 数 。 最 常见 的 用 法 是 使 用 f.placeholder () 创 建 feed 操作 , 
并 继承 其 他 特定 操作 作为 注入 操作 。 


下 例 展示 了 如 何 通 过 注入 的 方法 构建 3 x 2 阶 随机 和 矩阵 : 




















import tensorflow as tf 
import numpy as np 


a x 

De St 2 

x = tf.placeholder(tf.float32,shape=(a,b) ) 
y Sti vadd Gc hx) 

data = np.random.rand(a,b) 

sess = tf.Session() 


print sess.run(y, feed_dict={x:data}) 


输出 形式 为 : 


[[ 1.78602004  1.64606333] 
[ 1.03966308 0.99269408] 
[ 0.98822606 1.50157797]] 

>>> 


2.11 TensorBoard 


训练 神经 网 络 时 ， 有 时 会 需要 监控 网 络 的 参数 , 一 般 是 节点 的 输入 和 输出 。 这 样 即 可 在 每 次 
训练 迭代 后 检查 误差 函数 是 否 最 小 化 ， 从 而 了 解 你 的 模型 是 否 正确 学 习 。 当 然 , 想 通 过 手动 书写 
代码 展示 训练 阶段 中 网 络 的 表现 并 非 易 事 。 




















TensorBoard 的 安装 方式 极为 简单 。 只 需 在 终端 中 输入 以 下 命令 ( 针对 Ubuntu 系 
人 统 ，Python 2.7+ ): 
$ sudo pip install tensorboard 


S272 AY, TensorFlow 提 供 了 TensorBoard 框 架 , 用 于 分 析 和 调试 神经 网 络 模型 。TensorBoard 
采用 所 谓 的 汇总 来 查看 模型 的 参数 ; 一 旦 TensorFlow 代 码 执行 , 我 们 就 可 以 调用 TensorBoard 的 图 
形 用 户 界面 来 查看 汇总 数据 。 


此 外 ，TensorBoard 还 可 以 显示 并 学 习 TensorFlow 的 计算 图 。 一 个 深度 神经 网 络 模型 的 计算 图 
往往 会 非常 复杂 。 
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TensorBoard 工作 方式 


前 面 已 经 解释 过 ，TensorFlow 使 用 计算 图 执行 应 用 ， 其 中 每 个 图 节点 代表 一 项 操作 ， 边 代表 
操作 间 传 递 的 数据 。TensorBoard 的 主要 思想 是 将 所 谓 的 汇总 和 节点 〈 操作 ) 联系 起 来 。 

















\ 一 人 一 


运行 代码 时 ， 汇 总 操作 将 数据 输入 对 应 的 节点 ， 并 进行 运算 ; 将 输出 数据 写 人 一 个 文件 , E 
TensorBoard 读 取 。 








然后 即 可 启动 TensorBoard， 并 将 已 汇总 的 操作 可 视 化 。TensorBoard 的 工作 流 如 下 : 


口 编译 你 的 计算 图 /代码 ; 

口 添加 汇总 op 到 你 需要 分 析 的 节点 上 ; 
口 照常 运行 你 的 计算 图 ; 

口 同时 附带 运行 汇总 op; 

口 代码 运行 完成 后 ， 启 动 TensorBoard; 
O 可 视 化 汇总 输出 。 














2.12 节 会 将 前 述 所 有 概念 综合 应 用 ,构建 一 个 单 输入 神经 元 模型 ， 并 使 用 TensorBoard 对 其 进 
行 分 析 。 


2.12 ”实现 一 个 单 输入 神经 元 


本 例 中 ， 我 们 将 深入 学 习 TensorFlow 中 TensorBoard 的 主要 概念 ， 并 试 着 实现 几 个 基本 操作 。 
将 要 实现 的 模型 模拟 了 一 个 单 输入 神经 元 ， 该 模型 的 形式 可 参考 图 2-7。 


权重 输入 | 输出 


出 =f( 输 入, 权重 ) 

















E 











图 2-7 单 输 入 神经 元 示意 图 
该 神经 元 的 输出 就 是 输入 与 对 应 权重 的 乘积 。 
图 2-7 包 含 了 下 述 几 部 分 。 
Q 一 个 输入 值 ， 作 为 神经 元 的 激励 。 


口 单个 权重 ， 用 来 与 输入 相 乘 ， 产 生 神 经 元 的 输出 ; 权重 值 会 在 训练 阶段 产生 变化 。 
口 输出 是 输入 和 权重 的 乘积 。 神 经 元 是 通过 和 输出 和 期 望 值 的 比较 进行 学 习 的 。 
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a 以 上 元 素 已 经 足够 定义 此 模型 。 输入 值 代表 神经 元 的 激励 。 它 是 一 个 常数 ， 由 TensorFlow 
的 操作 定义 ， 即 tf .constant。 


我 们 定义 input_value， 赋 值 为 浮 点 数 0.5: 








input value = tf.constant(0.5,name-"input value") 


权重 是 传递 给 单 神经 元 的 输入 ,在 网 络 的 训练 阶段 会 改变 ， 所 以 需要 用 TensorFlow 的 变量 型 
来 定义 权重 : 








weight = tf.Variable(1.0,name-"weight") 

权重 的 初 值 是 浮 点 数 1.0。 

期 望 值 指 的 是 完成 网 络 的 学 习 后 , 我 们 期 望 得 到 的 输出 值 。 在 此 定义 为 一 个 TensorFlow 常 量 : 

expected output = tf.constant (0.0,name="expected_output") 

我 们 将 期 望 值 赋 为 0.0。 

我 们 想 要 计算 的 模型 或 输出 为 下 面 的 乘积 ， 即 weight x input. 

model = tf.multiply(input value, weight, "model") 

最 后 , 虽然 已 经 定义 了 神经 元 的 输入 和 输出 , 但 最 基本 的 部 分 还 未 定义 一 一 我 们 需要 告诉 神 
经 元 应 该 如 何 学 习 。 第 1 章 已 经 讲 过 ， 在 学 习 阶 段 需 要 定义 两 个 关键 元 素 。 

第 一 个 关键 是 要 定义 一 个 度量 标准 ,， 即 得 到 的 输出 与 期 望 输出 差距 有 多 少 。 这 个 度量 标准 就 
是 所 谓 的 损失 函数 。 一 般 会 将 其 定义 为 模型 输出 与 期 望 输 出 差 的 平方 : 















































loss function = tf.pow(expected output - model,2,name-"loss function") 

只 有 损失 函数 还 不 够 ; 我 们 必须 想 办 法 在 神经 元 的 训练 阶段 优化 损失 函数 或 最 小 化 它 的 值 。 
TensorFlow 中 有 好 几 种 优化 函数 。 本 例 采 用 梯度 下 降 法 (第 1 章 )， 这 是 使 用 最 广泛 的 一 种 优化 方 
法 。TensorFlow 中 的 梯度 优化 函数 为 tf.train.GradientDescentOptimizer。 



































optimizer = tf.train.GradientDescentOptimizer (learning_rate=0.025) 
该 函数 的 参数 为 learning_rate， 此 处 将 其 赋值 为 0.025。 
至 此 ， 我 们 已 经 定义 好 了 一 个 单 输入 神经 元 模型 需要 的 所 有 参数 。 


另外 ， 该 示例 还 希望 同时 讲解 如 何 使 用 TensorBoard。 汇 总 的 定义 包括 一 个 简单 的 设置 步 又 ， 
其 中 定义 了 我 们 希望 显示 的 参数 。 





for value in [input, value,weight,expected output,model,loss function]: 
tf.summary.scalar(value.op.name,value) 
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每 一 个 需要 显示 的 值 都 被 传 给 tf . summary .scalar 国 数 ， 该 函数 包括 以 下 两 个 参数 。 


O value.op.name: 作为 汇总 的 标签 
口 value: 一 个 实数 张 量 作 为 汇总 的 值 


tf.summary. scarlar 变 量 输出 一 个 summary 记 录 ， 以 缓冲 对 应 应 标量 的 值 。 然后 将 计算 图 中 ER 
收集 到 的 所 有 汇总 合并 : 


summaries = tf.summary.merge all() 


运行 计算 网 ， 需 要 创建 session 会 话 : 











sess = tf.Session() 


现在 创建 summarywriter, 将 filelog_simple_stats 事 件 写 人 对 应 的 汇总 记录 : 


tf.summary.FileWriter('log simple stats',sess.graph) 
SummaryWriter 类 提供 了 一 种 机 制 ， 用 于 在 每 条 路 径 中 创建 事件 记录 文件 ， 并 向 其 中 添加 
汇总 和 事件 。 该 类 对 文件 内 容 的 更 新 是 非 同步 的 。 这 就 使 训练 程序 得 以 调用 方法 ,在 训练 过 程 中 
ix 志文 件 添加 数据 ， 而 不 需要 因此 放 慢 训练 过 程 。 最 后 ， 可 以 运行 该 模型 ; 


summary_writer = 














sess.run(tf.global variables initializer()) 
我 们 进行 了 100 次 模拟 ， 每 次 模拟 都 会 监控 summary_writer 中 定义 的 参数 : 
for i in range(100): 

i) 


summary writer.add summary (sess.run(summaries),i 
sess.run (optimizer) 


运行 代码 之 后 ， 可 以 看 到 由 TensorBoard 创 建 的 日 志文 件 。 运 行 TensorBoard 十 分 简单 ， 打 开 
终端 ， 输 入 以 下 命令 


$ tensorboard --logdir-log simple stats 


ss ARA 


在 创建 1og_simple_stats 的 同一 路 径 下 ， 如 果 代 码 运 行 正 常 ， 终 端 将 显示 以 下 输出 : 


startig tensorboard on port 6006 


| 开 浏 览 器 并 输入 地 址 localhost :6006， 即 可 开始 使 用 TensorBoard。 


m 
pan 





J 开 TensorBoard 后 ， 页 面 显示 内 容 如 图 2-8 所 示 。” 


aL 





的 TensorBoard 界 面 略 有 改动 ， 如 EVENTS 选 项 卡 变 成 了 SCALAR 等 。 一 一 译 者 注 
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图 2-8 TensorBoard 页 面 
页 面 中 显示 的 事件 数据 也 可 以 实现 可 视 化 。 例 如 ,我 们 的 代码 中 可 被 可 视 化 的 数据 对 象 如 下 : 


口 expected output 
ü input value 

QO 1oss, function 
O model 

口 weight 





Fq2-9 tis T AMATAN Hi BG UI AIS RAY 26 (Lll £X. o 





model 


0.450 
0.350 
0.250 


0.150 





0.000 20.00 40.00 60.00 80.00 100.0 











图 2-9 TensorBoard 模 型 输出 可 视 化 
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点 击 GRAPH 选 项 卡 ， 可 以 看 到 该 模型 的 计算 图 及 其 中 继 节 点 ， 如 图 2-10 所 示 。 


Ness : i i B ; Ez ^ GradientDescent 
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K2-10 单 输 入 神经 元 的 计算 图 


可 以 在 EVENTS 选 项 卡 中 看 到 model 和 1oss_function 的 数据 。 如 果 想 显示 不 同 参 数值 的 
对 应 数据 ， i value 或 input_value， 那 么 需要 将 脚本 运行 数 次 ， 并 
将 日 志文 件 保存 到 不 同文 件 夹 ; 然后 运行 TensorBoard， 使 其 从 不 同文 件 夹 读 取 数 据 。 





2.13 单 输入 神经 元 源 代码 
现在 ， 完 整 展示 前 面 讲解 的 单 输入 神经 元 源 代码 : 





import tensorflow as tf 


input value = tf.constant(0.5,name-"input value") 

weight - tf.Variable(1.0,name-"weight") 

expected output = tf.constant(0.0,name-"expected, output") 

model = tf.multiply (input value,weight, "model") 

loss function - tf.pow(expected output - model,2,name-"loss function") 
optimizer = tf.train.GradientDescentOptimizer(0.025).minimize(loss. function) 


for value in [input value,weight,expected output,model,loss function]: 
tf.summary.scalar(value.op.name,value) 
summaries - tf.summary.merge all() 
sess = tf.Session() 
summary writer = tf.summary.FileWriter('log simple stats',sess.graph) 
sess.run(tf.global variables initializer()) 
for i in range(100): 
summary writer.add summary (sess.run(summaries),i) 
sess.run (optimizer) 





2.14 迁移 到 TensorFlow 1.x 版 本 
TensorFlow 1.0 版 本 较 之 前 版 本 有 很 多 改动 。 进 行 运算 和 复 用 之 前 版 本 的 代码 时 ， 你 可 能 会 
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发 现 ， 有 些 地 方 已 经 不 兼容 了 。 这 意味 着 ， 用 TensorFlow 0.x 开 发 的 应 用 可 能 在 TensorFlow 1.x 版 
本 上 无 法 正确 运行 。 现 在 ， 阁 需要 将 代码 从 0.x 版 本 升级 到 1.x 版 本 ， 有 两 种 方式 : 使 用 升级 脚本 
或 手动 升级 。 


2.14.1 如何 用 脚本 升级 


t£ upgrade .py 脚本 可 以 将 你 的 0.x 版 本 源 代码 升级 ， 使 之 与 1x (或 更 高 ) 版 本 兼容 。 该 脚本 
HY LA M GitHub E FÆ, H dik 2j https://github.com/tensorflow/tensorflow/tree/master/tensorflow/tools/ 
compatibility。 将 单个 0x 版 本 TensorFlow 源 代码 文件 转换 为 1x (或 更 高 ) 版 本 的 命令 格式 如 下 : 


对 于 Python 2.7， 输 入 以 下 命令 : 




















$ python tf_upgrade.py --infile InputFile --outfile OutputFile 
对 于 Python 3.3+， 其 命令 为 : 


$ python3 tf upgrade.py --infile InputFile --outfile OutputFile 


例如 ， 假 设 你 有 一 个 名 为 five_layers_trelu.py 的 0.x 版 本 脚本 ， 使 用 Python 2.71835, VJ 
容 如 下 : 


import mnist_data 
import tensorflow as tf 
import math 
logs path = 'log simple stats 5 layers relu softmax' 
batch size - 100 
learning rate - 0.5 
training epochs - 10 
mnist - mnist data.read data sets("data") 
X - tf.placeholder(tf.float32, [None, 28, 28, 1]) 
Y - tf.placeholder(tf.float32, [None, 10]) 


lr = tf.placeholder(tf.float32) 

















L = 200 

M = 100 

N = 60 

O = 30 
Wl = tf.Variable(tf.truncated normal([784, L], stddev=0.1) ) 
B1 = tf.Variable(tf.ones([L])/10) 

W2 = tf.Variable(tf.truncated normal([L, M], stddev=0.1)) 
B2 = tf.Variable(tf.ones([M])/10) 

W3 = tf.Variable(tf.truncated normal([M, N], stddev=0.1)) 
B3 - tf.Variable(tf.ones([N])/10) 

W4 = tf.Variable(tf.truncated normal([N, O], stddev=0.1) ) 
B4 = tf.Variable(tf.ones([O])/10) 

W5 = tf.Variable(tf.truncated normal([O, 10], stddev=0.1)) 
B5 - tf.Variable(tf.zeros([10])) 

XX - tf.reshape(X, [-1, 784]) 

Y1 = tf.nn.relu(tf.matmul(XX, W1) + B1) 
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Y2 = tf.nn.relu(tf.matmul(Y1, W2) + B2) 
Y3 = tf.nn.relu(tf.matmul(Y2, W3) + B3) 
Y4 = tf.nn.relu(tf.matmul(Y3, 

Ylogits = tf.matmul (Y4, W5) + B5 
Y = tf.nn.softmax(Ylogits) 

cross entropy - tf.nn.softmax cross entropy with logits(Ylogits, Y ) 
cross, entropy = tf.reduce_mean(cross_entropy) *100 








correct_prediction = tf.equal(tf.argmax(Y, 1), tf.argmax(Y_, 1)) 
accuracy = tf.reduce mean(tf.cast(correct prediction, tf.float32) ) 
train step = tf.train.AdamOptimizer(lr).minimize(cross entropy) 
tf.scalar, summary ("cost", cross entropy) 
tf.scalar, summary ("accuracy", accuracy) 
summary op - tf.merge all summaries() 
init - tf.initialize all, variables() 
Sess - tf.Session() 
sess.run(init 
with tf.Session() as sess: 
sess.run(tf.initialize all variables()) 
writer = tf.train.SummaryWriter(logs path, \ 
graph-tf.get default graph()) 
for epoch in range(training. epochs): 
batch, count - int(mnist.train.num examples/batch size) 
for i in range(batch, count): 
batch x, batch y - mnist.train.next batch(batch size) 
max learning rate 0.003 
min, learning rate - 0.0001 
decay. speed - 2000 
learning rate = min learning rate+\ 
(max learning rate - min learning rate)\ 
* math.exp(-i/decay. speed) 
_, Summary = sess.run([train step, summary op], 
(X: batch x, Y : batch y, lr: learning rate}) 
writer.add summary (summary,epoch * batch count + i) 





#if epoch $ 2 == 0: 
print "Epoch: ", epoch 
print "Accuracy: ", accuracy.eval (feed dict-(X: mnist.test.images, Y_ 


mnist.test.labels)) 
print "done" 


ME, 若 要 转换 上 述 0.x 版 本 TensorFlow 人 代码,， 需 要 输入 下 述 命令 。 其 中 0.x 版 本 原始 文件 名 为 
five_layers_relu.py， 转 换 后 的 1.x 版 本 目标 文件 名 为 five layers relu 1.pyeo 





$ python tf upgrade.py --infile five layers relu.py --outfile five layers relu 1.py 


若 没有 报 出 编译 错误 ，tf_upgraqe .py 脚本 会 在 同一 路 径 生 成 一 个 名 为 report .txt 的 文 
件 。 当 然 ， 也 会 同时 在 当前 工作 目录 生成 升级 后 的 脚本 ( 即 five_layers_relu_1.py )。 文 本 
文件 显示 了 脚本 所 做 的 更 改 , 并 提出 了 一 些 手动 更 改 的 建议 ( 见 图 2-11 ),。 现在 查看 report .txt 
中 的 内 容 : 


$ cat report.txt 
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Processing file 'five layers relu.py 
putputting to "five layers relu. 


baeo ns on 


Penanedirunctionni ce ani calle evautivantables A a aiobaikvar abiest 
sess.run(tf.initialize_all_variables()) 
sess.run(tf.global variables initializer()) 


Renamed function 'tf.train.SummaryWriter' to 'tf.summary.FileWriter 
writer - tf.train.SummaryWriter(logs path, V 
writer = tf.summary.FileWriter(logs path, V 


" Five_layers_relu.py' Line 45 


Added keyword 'logits' to reordered ane ERDIS softmax cross entropy with Gg 
dded keyword 'labels' to reordered function 'tf.nn.softmax cross entropy with logits' 
Old: cross entropy - tf.nn.softmax cross entropy with logits(Ylogits, Y ) 
New: cross entropy = tf.nn.softmax cross entropy with logits(logits-Ylogits, labels-Y ) 


'five layers relu.py' Line 55 

— function ‘tf.scalar_summary' to ‘tf.summary.scalar’ 
Old: tf.scalar summary("cost", cross entropy) 
New: tf.summary.scalar("cost", cross entropy) 

'five layers relu.py' Line 56 

Ca a Wr i 
Old: tf.scalar summary("accuracy", accuracy) 
New: tf.summary.scalar("accuracy", accuracy) 


' five_layers_relu. 


Renamed function 'tf.merge_all_summaries' to 'tf.summary.merge all 
Old: summary op - tf.merge all summaries() 
New: summary op = tf.summary.nerge all 


five layers relu.py' Line 59 


leer DERIT Bun initialize. “all Daes to 'tf.global_ Es initializer’ 
Old: init = tf.initialize_all_variables() 
New: init = tf.global variables initializer() 


图 2-11 reporttxt 中 显示 的 外 upgrade.py 脚 本 所 做 的 更 改 























此 ,根据 报告 文件 的 显示 ， 如 果 打 开 five_lavers_relu_1.py 文 件 查 看 了 
察 到 如 图 2-12 所 示 更 改 (已 标 出 )。 




















cross entropy = tf.nn.softmax_cross_entropy_with_logits(logit 
cross entropy = tf.reduce mean(cross entropy)*199—— 








correct prediction - tf.equal(tf.argmax(Y, 1), tf.argmax(Y , 1)) 
accuracy - tf.reduce mean(tf.cast(correct prediction, tf.float32)) 


train step - tf.train.AdamOptimizer(lr).minimize(cross entropy) 
[tf.summary.scalar("cost", cross -entropy)) 
M summary cpt er Casus e accu acy) / 


(summary op = tf.summary.merge all 














finit = tr.global variables _initializer( 
sess = FETA Session) — — — —— 
sess. run(init) 


with tf.Session() as sess: 
CSess.run(tf.global variables initializer()) 
(writer = tf. summary. FileWriter(Togs- at 
graph-tf.get default graph()) 
for epoch in range(training epochs): a NEU a E 
batch count - int(mnist.train.num examples/batch size) 
for i in range(batch count): 
batch x, batch y = mnist.train.next  batch(batch size) 
max learning rate = 0.003 
min learning rate - 0.0001 
decay speed - 2000 
learning rate = min learning rates| 
(max learning rate - min learning rate)V 
* math.exp(-i/decay speed) 
_, Summary = sess.run([train step, summary op],V 
(X: batch x, Y : batch y,V 
lr: learning rate]) 
writer.add_summary(summary,\ 
epoch * batch_count + i) 

















#if epoch % 2 == 0: 
print "Epoch: ", epoch 
print "Accuracy: ", accuracy.eval\ 
(feed dict-(X: mnist.test.images, Y : mnist.test.labels}) 
print "done" 


图 2-12 升级 文件 中 被 更 改 的 内 容 
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对 于 Python 3.3+， 需 要 更 改 示 例 程序 中 的 print 语 句 ， 然 后 运行 升级 脚本 。 
现在 ， 如 果 需 要 将 含有 0.x 版 本 源 代码 的 整个 目录 升级 为 兼容 1.x* 的 版 本 ， 应 当 执行 以 下 格式 


命令 : 


$ python tf_upgrade.py --intree InputDir --outtree OutputDir 


2.44.2. fa 


使 用 tf_upgrade.py 文 件 进行 版 本 升级 有 一 定局 限 性 。 例 如 ， 你 必须 手动 修改 所 有 
tf.reverse() 实 例 。 这 倒 不 是 很 困难 ,因为 ff_upgradqe .py 脚本 会 在 report .txt 文 件 中 生成 
关于 tf.reverse() 的 警告 。 至 于 重新 排列 的 参数 ，tf_upgrade .py 会 试图 最 小 化 代码 格式 ， 

但 不 会 自动 改变 实际 参数 的 顺序 。 再 比如, tf.get_variable_ scope() .reuse variables() 
可 能 无 法 正常 工作 。 因 此 ， 我 们 建议 删除 这 些 语句 ， 并 用 下 述 语句 代替 : 


tf.variable scope(tf.get variable scope(), reuse-True) 











2.14.8 ”手动 升级 代码 


如 前 所 述 ， 使 用 kf_upgradae .py 脚本 升级 代码 有 很 多 局 限 性 。 因 此 ， 除 了 运行 脚本 自动 升 
， 你 还 可 以 手动 升级 自己 的 代码 。 本 节 将 提供 一 个 全 面 的 列表 ， 列 出 TensorFlow 1.x 中 所 有 向 
wur 


如 果 不 使 用 自动 升级 脚本 ， 接 下 来 就 需要 手动 修改 你 的 代码 。 这 些 建议 参考 自 TensorFlow 官 
方 网 站 https://www.tensorflow.org/install/migration。 

















2.144 变量 


在 最 新 发 布 的 TensorFlow 版 本 中 ,变量 函数 名 变 得 更 加 具有 一 致 性 ， 混 乱 程度 有 所 减轻 。 下 
面 是 一 些 手 动 升级 建议 : 




















口 tf .VARIABLES 应 重 命 名 为 tf .GLOBAL_VARIABLES; 

口 tf.all_variables 应 重 命名 为 tf. global_variables; 

QO tf.initialize_all_variables 应 重 命名 为 tf.global_variables_initializer; 
LU cf.initialize local _variables 应 重合 闻名 为 tf. local variables initializer; 











Otf.initialize _variables 应 重 命 TRANCE. variables_initializer, 


2.14.5 汇总 函数 


在 最 新 发 布 的 TensorFlow 版 本 中 ， 汇 总 函数 被 合并 在 tf . summary 命 名 空间 下 。 下 面 是 一 些 
手动 升级 建议 : 
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DOOOOOODO 


2.14.6 








f.audio . summary W 3 fp 44 At £ . summary.audio; 
f.contrib.deprecated.histogram . summary 应 重 命 闻名 为 tf .summary .histogram; 
f.contrib.deprecated.scalar  summaryJ Ht fir Te AcE. summary.scalar; 
f.histogram . summary 应 重 命名 为 tf. summary .histogram; 

f .image_summary 应 重 命 名 为 tf. summary .image; 

f.merge all _summaries 应 重 命 方 名 为 tf . summary.merge all; 

f .merge_summary 应 重 命名 为 tf .summary .merge; 

f.scalar _summary 应 重 命名 为 tf. summary.scalar; 





f.train. SummaryWriter 应 重 命 TYNE. summary .FileWritero 


简化 的 数学 操作 


最 新 发 布 的 TensorFlow 版 本 移 除了 批量 版 本 的 数学 操作 ， 这 些 操 作 现在 包含 于 非 批量 版 本 
Fo 下面 是 一 些 手动 升级 建议 : 





D D CO D D D D D O D DO DO DO DOCDOCOCUZLD!LDZwLU 














f.batch_band_part MEMA JJtf.band part; 

f.batch _cholesky 应 重合 闻名 为 tf .cholesky; 

f . batch _cholesky_solve 应 重 命 入 名 为 tf . cholesky. solve; 

f .patch_fft 应 重 命名 为 tf .fft; 

f .batch_fft3g 应 重 命名 为 tf .fft34q; 

Ff .batch_ifft 应 重 命 名 为 tf.ifft; 

f .patch_ifft2d 应 重 命名 为 tf .ifft2g; 

Ff .batch_ifft3d 应 重 命名 为 tf.ifft3d; 

f .batch_matmul 应 重 命 名 为 tf .matmul; 

f.batch matrix_determinant 应 重 命名 为 Lf.matrix_determinant; 
f.batch matrix  diag Ht fir 闻名 为 tf. matrix_diag; 
f.batch_matrix_inverse 应 重 命名 为 tf .matrix_inversei 

f . batch atrix_solve 应 重 命名 为 tf.matrix_solve; 
f.batch atrix solve ls MEMA JJtf.matrix solve 1s; 











f.batch matrix _transpose 应 重 命名 为 tf. matrix_transpose; 
f.batch matrix triangular. . solve 应 重合 BA tct. matrix triangular | solve; 
f.batch self adjoint eig 应 重 命 Act. self adjoint eig; 

f.batch self adjoint eigvals 应 重 命 闻名 为 tf. self_adjoint_eigvals; 

f .batch_set_diag 应 重 命名 为 tf.set_diag; 

f .batch_svgd 应 重 命名 为 tf . svd; 


f.complex abs 应 重 命 名 为 tf .abs。 
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2.14.77 ”其 他 事项 
在 TensorFlow 最 新 发 布 的 版 本 中 ， 还 有 一 些 其 他 方面 的 变更 。 下 面 是 一 些 手 动 升级 建议 : 


口 
口 





口 


Ooooo 














tf.nn.sigmoid cross entropy with logits 中 的 参数 重新 排列 为 Etf.nn . sigmo 


id_cross_entropy_with_logits(_sentinel=None, labels=None, logits=None, 


tf.image.per image whiteningh EMA Ate. image.per_image_standardiza tion; cum 








name-None); 
tf.nn.softmax cross entropy with logits 中 的 参 数 重新 排列 为 tt.nn. 


softmax_cross_entropy_with_logits(_sentinel=None, labels=None,logits 





-None, dim=-1, name=None); 
tf.nn.sparse softmax cross entropy with logits 中 的 参数 重新 排列 为 Etf .nn . 


sparse_softmax_cross_entropy_with_logits(_sentinel=None, labels=None, 











logits=None, name=None) ; 

tf.ones _initializer 应 改 为 一 个 国 数 调用 ， Bltf.ones initializer() 
tf .pack 应 重 命名 为 tf. stack; 

tf.round 的 语义 现在 符合 四 舍 六 入 五 留 双规 则 ( Banker's rounding ) 

tf .unpack 应 重 命名 为 tf .unstack; 

tf.zeros _initializer 应 改 为 一 ^ PR 函数 调用 ， Blc£. zeros initializer()e 





以 上 基本 就 是 TensorFlow 代 码 迁 移 到 1.x 版 本 需要 修改 的 所 有 内 容 。 


然而 ， 上 述 内 容 并 不 是 TensorFlow 最 新 版 本 给 出 的 完整 修改 建议 。 因 此 ， 若 升级 过 程 中 需要 
了 解 更 多 信息 ， 请 参考 https://www.tensorflow.org/install/migration 。 


2.15 


小 结 




















TensorFlow 使 人 人 都 能 便捷 使 用 分 布 式 机 器 学 习 和 深度 学 习 , 但 使 用 该 工具 也 需 具 备 一 定 的 
计算 机 常 让 egre 另外 ， 最 新 版 本 ee rd 了 很 多 激动 人 心 的 特性 ， 书 中 对 这 些 


特性 进行 








， 便 于 你 参考 使 用 。 我 们 也 介绍 了 如 何在 不 同 平台 安装 TensorFlow， 包 括 Linux、 


ME OS。 此 外 还 探讨 了 更 深层 的 内 容 ， 举 例 说 明了 如 何 将 旧版 本 的 TensorFlow 源 代码 
升级 到 1.x 版 本 。 


下 面 简要 回顾 本 音 介 绍 的 核心 概念 。 


口 








图 : TensorFlow 运 算 被 表示 为 数据 流 图 。 每 个 图 由 一 系列 操作 (http://www.tensorflow.org/ 
api_docs/python/framework.html#Operation ) 对 象 组 成 。 


口 操作 : 每 个 操作 对 象 代表 一 个 图 节点 ， 即 张 量 流 上 的 一 个 运算 ( 加 法 、 乘 法 或 更 复杂 的 





操作 ) 单元 。 其 输入 为 一 个 张 量 ， 输 出 也 是 一 个 张 量 。 
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ORS: 张 量 可 以 被 表示 为 数据 流 图 上 的 边 。 它 们 不 表示 或 包含 由 操作 产生 的 值 ， 而 是 定 
义 该 值 的 类 型 和 会 话 中 计算 该 值 的 方法 。 
口 会 话 : 会 话 是 一 个 实体 ， 表 示 运 行 数据 流 图 运算 的 环境 。 




















在 本 章 的 后 几 节 ， 我 们 介绍 了 TensorBoard， 它 是 分 析 和 调试 神经 网 络 模型 的 一 个 有 力 工具 


7N O 


接着 , 我 们 给 出 一 个 例子 , 展示 如 何 实现 一 个 简单 的 神经 元 模型 。 以 及 如 何 用 TensorBoard 分 析 其 


学 习 过 程 。 











最 后 介绍 了 将 TensorFlow 0.x 版 本 源 代码 迁移 到 1.x 版 本 的 过 程 。” 


下 一 音 会 介绍 前 馈 神经 网 络 。 首 先 讲 解 一 些 理 论 性 的 知识 , 然后 展示 如 何 训练 和 评估 这 种 类 
型 的 神经 网 络 在 图 像 分 类 问题 上 的 表现 。 为 便于 理解 ， 还 会 展示 一 些 前 馈 神 经 网 络 的 应 用 示例 。 























OD 原 书 中 ， 本 章 部 分 章节 内 容 有 误 ， 已 由 译 者 重新 编著 。 新 内 容 参 考 https:/www.tensorflow.org/install/install_ windows, 
http:/www.netinstructions.com/how-to-install-and-run-gpu-enabled-tensorflow-on-windows/ 和 http://www.netinstructions.com/ 
how-to-install-tensorflow-on-windows-without-docker-or-virtual-machines/， 请 读者 酌情 采纳 。 一 一 编者 注 








用 TensorFlow 构 建 前 馈 神 经 
网 络 








神经 网 络 架构 多 种 多 样 ， 有 些 差距 颇 大 。 其 形式 一 般 具 有 不 同 的 层 ， 第 一 层 接收 输入 信和 号 ， 
最 后 一 层 返回 输出 信号 。 这 些 网 络 通常 都 是 前 馈 神 经 网 络 。 




















简 言 之 ， 前 馈 神经 网 络 非常 适用 于 对 函数 进行 拟 合 和 插值 。 
本 章 将 讨论 以 下 主题 : 


Q 前 馈 神 经 网 络 介绍 
口 手写 数字 分 类 

O 探究 MINST 数 据 集 
口 softmax 分 类 器 

口 TensorFlow 模 型 的 保存 和 恢复 
口 实现 一 个 五 层 神经 网 络 

口 ReLU 分 类 器 

口 dropout 优 化 














3.1 前 馈 神经 网 络 介绍 


ys 


前 





馈 神经 网 络 包 含 大 量 神经 元 ， 以 层 组 织 : 一 个 输入 层 ， 一 个 或 多 个 隐藏 层 ， 一 个 输出 层 。 
每 个 神经 元 都 与 其 前 一 层 的 所 有 神经 元 相连 接 , 并非 所 有 连接 都 相同 , 因为 它们 具有 不 同 的 权重 。 
这 些 连接 的 权重 承载 了 整个 网 络 的 信息 。 














数据 进入 输入 层 ， 然 后 逐 层 通过 网 络 ， 最 终 达 到 输出 层 。 在 此 过 程 中 ,各 层 之 间 没 有 相互 





E 
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因此 ， 这 些 网 络 称 为 前 馈 神 经 网 络 。 
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含有 足够 多 隐藏 层 神经 元 的 前 馈 神 经 网 络 可 以 在 一 定 精度 内 拟 合 以 下 类 型 的 函数 : 
O 任何 连续 函数 ， 需 要 一 个 隐藏 层 ; 
O 任何 函数 ， 甚 至 是 不 连续 的 ， 需 要 两 个 隐藏 层 。 

然而 ,计算 非 线性 函数 达到 指定 精度 需要 多 少 个 隐藏 层 、 多 少 个 神经 元 ， 这 是 无 法 预知 的 。 
除了 赁 感觉 我们 需要 通过 经 验 和 一 些 启 发 式 方法 来 确定 网 络 结构 。 

如 果 一 个 神经 网 络 由 很 少 的 隐藏 层 或 神经 元 组 成 , 那么 它 对 未 知 函数 的 拟 合 精 度 可 能 不 会 很 
高 ( 见 图 3-1 )。 因 为 函数 可 能 太 复 杂 , 或 者 反 向 传播 算法 得 出 了 一 个 局 部 最 优 解 。 如 果 网 络 包含 
大 量 隐藏 层 ， 我 们 可 能 会 遇 到 过 拟 合 问题 ， 即 网 络 的 泛 化 能 力 会 变 差 。 



























































输入 层 隐藏 层 1 隐藏 层 2 输出 层 


i Neurons: 


E 


i Neurons: 




















图 3-1 含有 两 个 隐藏 层 和 输入 偏差 的 前 馈 神 经 网 络 


3.1.1 ”前 馈 和 反 向 传播 


反 向 传播 算法 的 目标 是 , 使 网 络 的 实际 输出 值 和 正确 输出 之 间 的 误差 最 小 。 由 于 网 络 是 前 馈 
的 , 所 以 激励 总 是 由 输入 单元 流向 输出 单元 。 到 达 输 出 单元 后 , 网 络 的 输出 会 与 正确 输出 相 比较 ， 
然后 将 代价 函数 的 梯度 反 向 传播 ， 同 时 更 新 权重 。 


这 种 方法 是 可 以 递归 的 ， 并 且 可 以 应 用 于 任何 数量 的 隐藏 层 。 


反 向 传播 算法 处 理 信息 的 方式 能 使 网 络 在 迭代 学 习 的 过 程 中 减 小 其 全 局 误差 。 然 而, 这 种 方 
法 不 能 保证 一 定 获得 全 局 最 优 解 。 由 于 网 络 含有 隐藏 单元 , 旦 输出 函数 具有 非 线性 性 ， 所 以 误差 
函数 的 表现 十 分 复杂 ,具有 很 多 局 部 最 优 解 。 反 向 传播 算法 有 可 能 因此 陷入 局 部 最 小 值 ， 从 而 导 
致 给 出 的 解 不 是 最 优 解 。 一 般 情况 下 ， 由 于 网 络 在 不 断 学 习 ， 误差 值 会 在 训练 集 上 逐渐 减 小 (这 
就 意味 着 在 训练 集 数 据 上 ， 输 入 输出 关系 表示 得 更 加 准确 ); 但 在 测试 集 上 ( 衡量 模型 的 预测 能 
力 )， 从 某 个 值 开始 ， 误 差 可 能 会 增长 ， 因 为 产生 了 过 拟 合 问题 。 最 终 训练 出 的 网 络 〈 或 模型 ) 
在 训练 集 上 拥有 很 高 的 分 类 准确 率 ， 但 对 未 知 样本 的 分 类 准确 性 很 差 。 
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3.1.2 ”权重 和 偏差 


除了 神经 元 的 状态 及 其 连接 方式 , 我 们 还 要 考虑 突 触 权重 ， 即 网 络 内 部 该 连接 的 影响 力 。 
个 权重 都 有 一 个 数值 Wj， 表 示 连 接 神 经 元 ;和 /的 突 触 权重 。 


一 个 神经 元 总 是 含有 一 个 或 多 个 连接 , 其 数量 取决 于 该 神经 元 的 位 置 。 这 些 连接 对 应 不 同 的 
突 触 权重 。 


权重 和 输出 函数 决定 了 单个 神经 元 及 整个 网 络 的 表现 。 
在 训练 阶段 ， 权 重 需 要 得 到 正确 更 新 ， 以 保证 模型 的 正确 表现 。 


每 个 单元 由 一 个 输入 向 量 x;= Qn, x2,… ,Xn) 和 一 个 权重 向 量 wi= (Wa, wp , Win) 定 义 。 神 经 
元 刻 的 值 为 输入 的 加 权 和 |: 














neti= È wiz (a) 

这 些 权重 中 有 一 个 特殊 的 权重 ， 称 为 偏差 。 该 权重 不 与 网 络 中 的 其 他 单元 相连 接 ， 且 其 输入 

恒 为 1。 这 样 可 以 为 神经 元 建立 一 个 参考 点 或 闪 值 。 严 格 地 说 ， 偏 差 将 横 轴 上 的 值 转化 到 输出 函 
数 中 。 这 样 ， 前 述 公式 变 为 如 下 形式 : 








net; = È witb; (b) 


3.1.3 ”传递 函数 


每 个 神经 元 接收 的 输入 信号 是 , 与 之 相连 的 神经 元 的 激励 值 的 加 权 和 。 为 计算 神经 元 的 激励 
值 ， 即 神经 元 传递 的 值 ， 加权 和 必须 作为 传递 函数 的 参数 进行 传递 。 传递 函 数 允 许 神 经 元 对 接收 
的 信号 进行 更 改 。 


一 种 最 常用 的 传递 函数 就 是 所 谓 的 sigmoid 函 数 : 
































out, = 
l+e 


该 函数 的 定义 域 为 所 有 实数 , 值 域 为 (0, 1)。 这 意味 着 , 神经 元 每 个 激活 态 的 运算 所 产生 的 输 
出 值 均 落 在 0 和 1 之 间 。 


图 3-2 展 示 的 sigmoid 函 数 可 以 表示 一 个 神经 元 从 未 激活 (= 0) 到 完全 饱和 ( 达到 最 大 值 1 ) 
的 饱和 速率 。 


—net; 
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sigmoid 











输入 








图 3-2 sigmoidPRZX 

需要 对 新 的 数据 进行 分 析 时 ， 数据 从 输入 层 载 入 ， 利 用 公式 (a) 或 公式 (b) 产 生 输出 。 该 结果 
和 该 层 的 所 有 其 他 神经 元 的 输出 组 成 下 一 层 神经 元 的 输入 。 下 一 层 神经 元 将 重复 该 过 程 。 一 般 
情况 下 ， 前 馈 神经 网 络 的 最 后 一 层 会 采用 一 个 softmax 孙 数 ， 这 样 可 以 方便 地 用 后 验 概率 解释 网 
络 的 输出 。 


softmax 函 数 的 形式 如 下 s 




















此 处 的 N 表 示 网 络 输出 的 总 个 数 。 
另外 ，softmax 函 数 的 以 下 重要 性 质 成 立 : 


0S<out;<1 con Y;out;- 1 


3.2 手写 数字 分 类 


手写 数字 的 自动 识别 是 一 个 重要 课题 , 有 许多 实际 应 用 。 本 章 会 通过 实现 前 馈 神 经 网 络 来 解 
决 这 一 问题 。 
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为 了 训练 和 测试 实现 的 模型 ， 我 们 采用 MNIST 手 写 数 字数 据 集 。 
MNIST 数 据 集 由 含有 60 000 个 样本 的 训练 集 和 含有 10 000 个 样本 的 测试 集 构成 。 图 3-3 为 样本 

















文件 中 的 数据 示例 。 

Q/23*Sevvtu 
072345 67 § 4 
ey 2F ¥ * eF? 
of 2343 62.55 
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电 图 3-3 从 MNIST 数 据 集 提 取 的 数据 示例 


原始 图 像 为 黑白 图 片 , 但 随后 为 将 其 归 一 化 为 28 x 28 像 素 , 采用 的 抗 混 闭 滤波 器 会 将 图 像 亮 
度 中 心 化 。 因 此 ， 为 优化 学 习 过 程 ， 图 像 被 聚焦 在 大 量 像 素 中 央 的 一 个 28 x 28 像 素 的 区 域 。 


整个 数据 集 被 存储 在 4 个 文件 中 。 
训练 数据 集 : 


train-images-idx3-ubyte.gz: training set images (9912422 bytes) 
train-labels-idxl-ubyte.gz: training set labels (28881 bytes) 


测试 数据 集 : 


t10k-images-idx3-ubyte.gz: test set images (1648877 bytes) 
t10k-labels-idxl-ubyte.gz: test set labels (4542 bytes) 


每 个 数据 集 含 有 两 个 文件 ， 第 一 个 文件 包含 图 像 ， 第 二 个 文件 为 图 像 对 应 的 标签 。 





3.3 探究 MNIST 数据 集 
下 面 举 一 个 简短 的 例子 ， 说 明 如 何 访问 MNIST 数 据 集 ， 以 及 如 何 显示 一 个 选 定 的 图 像 。 
需要 导入 以 下 库 。 
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使 我 们 可 以 下 载 MNIST 数 据 库 并 建立 数据 集 。 


导 人 numpy 库 进行 一 些 图 像 操 作 : 

>>import numpy as np 

导入 matplot1ib 中 的 pyplot 函 数 以 绘制 图 像 : 
>>import matplotlib.pyplot as plt 


最 后 ， 需 要 导入 mnist_qdata 库 。 你 可 以 从 本 书 的 代码 仓库 下 载 此 库 。 它 是 


























T 


»»import mnist data 


然后 使 用 read_qata_sets 方 法 载 人 数据 集 : 








>>__input = mnist_data.read_data_sets("data") 


上 述 命令 中 ， 括 号 内 的 aata 为 即将 载 人 图 像 的 路 径 名 称 。 
若 要 查看 图 像 的 形状 和 标签 ， 可 以 使 用 以 下 命令 : 











>>__input.train.images.shape 
(60000, 28, 28, 1) 


>>__input.train.labels.shape 
(60000, 10) 


>>__input.test.images.shape 
(10000, 28, 28, 1) 


>>__input.test.labels.shape 
(10000, 10) 


使 用 Python 绘图 库 matplotib， 可 以 可 视 化 单个 数字 ; 





»»image O0 
»»image O0 


. input.train.images[0] 
np.resize(image 0,(28,28)) 


»»label 0 
label set 


数字 1 处 于 数组 的 第 6 位 ， 这 说 明 我 们 图 像 中 的 数字 识别 为 5。 
最 终 ， 验 证 发 现 图 像 中 的 数字 确实 为 5 ( 见 图 3-4 )。 
使 用 导入 的 plt 函 数 ， 绘 制 image_0 张 量 。 


. input.train.labels[0] 
[ 0. 0. 0. 0. 0. 1. 0. O. O. O.] 








»»plt.imshow(image 0, cmap-'Greys r') 
»»plt.show() 
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图 3-4 ”从 MNIST 数 据 集 提 取 的 图 像 


3.4 softmax 分 类 器 


前 面 的 章节 展示 了 如 何 存 取 和 操作 MNIST 数 据 集 。 本 节 将 讨论 如 何 利 用 TensorFlow 库 解决 手 
写 数字 的 分 类 问题 。 

我 们 将 应 用 前 面 介绍 的 概念 建立 神经 网 络 模型 , 用 以 获取 并 比较 不 同方 法 得 到 的 结果 。 需 要 
实现 的 第 一 个 前 馈 网 络 架构 如 图 3-$ 所 示 。 
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图 3-5 softmax 神 经 网 络 架 构 
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网 络 的 隐藏 层 〈softmax 层 ) 包含 10 个 神经 元 和 一 个 softmax 传 递 函 数 。 请 记 住 ， 该 函数 的 激 
励 定 义 为 一 组 和 为 1 的 正 数 ; 这 意味 着 第 ;个 输出 值 代表 /为 对 应 网 络 输入 的 类 别 的 概率 。 


下 面 看 看 如 何 实 现 该 神经 网 络 模 型 。 
首先 要 导入 必要 的 库 ， 并 为 模型 准备 好 数据 : 


import tensorflow as tf 
import mnist_data 








logs_path = 'log_simple_stats_softmax' 

batch_size = 100 

learning_rate = 0.5 

training_epochs = 10 

mnist = mnist data.read data sets("data") 

接着 定义 网 络 模型 。 

输入 网 络 包 含 从 MNIST 数 据 集 抽取 的 一 系列 图 像 ， 每 个 图 像 的 大 小 为 28 x 28 像 素 : 


X = tf.placeholder (tf.float32, [None, 28, 28, 1],name="input") 


需要 解决 的 问题 是 如 何 为 每 个 分 类 ( 数字 0~9 ) 分 别 指定 一 个 概率 值 。 对 应 的 输出 描述 了 一 
个 概率 分 布 , 我 们 可 以 从 中 得 到 对 待 检验 值 的 一 个 预测 。 输 出 网 络 保存 在 由 10 个 元 素 张 量 组 成 的 
下 列 占 位 符 中 


Y_ = tf.placeholder(tf.float32, [None, 10]) 


权重 同时 考虑 了 隐藏 层 的 大 小 〈 10 个 神经 元 MARR AE SUEDE RE FOIE aE D GP 
须 更 新 ， 定 义 如 下 : 


W = tf.Variable(tf.zeros([784, 10])) 


权重 和 矩阵 为 W[784, 10], H784 = 28 x 28, 


接 下 来 , 将 图 像 展 开 为 一 条 一 维 像素 线 ; 形状 定义 中 的 数字 -1 代表 保存 元 素数 量 的 唯一 可 能 
的 维度 。 
XX = tf.reshape(X, [-1, 784]) 


相似 地 ， 为 网 络 定义 偏差 bias， 它 表示 触发 信号 相对 于 原始 输入 信号 的 平移 量 。 形 式 上 ， 
骨 差 扮演 的 角色 和 权重 没什么 差别 ， 都 用 于 调节 发 射 /接收 信号 的 密度 。 


因此 ，pias 张 量 被 定义 为 一 个 变量 型 张 量 : 









































b = tf.Variable(tf.zeros([10])) 


同样 ， 其 大 小 〈= 100 等 于 隐藏 层 神经 元 数 的 总 和 。 
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input 、weight 和 bias 张 量 的 大 小 得 到 合理 定义 之 后 , 便 可 定义 evidence 参 数 , 用 来 量化 
一 个 图 像 是 否 属于 某 个 特定 的 类 。 


evidence = tf.matmul (XX, W) + b 


这 里 的 神经 网 络 只 有 一 个 隐藏 层 ， 由 10 个 神经 元 组 成 。 由 前 馈 网 络 的 定义 可 知 ,， 同 一 层 的 所 
有 神经 元 都 有 相同 的 激活 函数 。 


在 我 们 的 模型 里 ,激活 函数 是 softmax 函 数 ， 它 将 evidence 参 数 转化 为 图 像 可 能 属于 的 10 个 
类 的 概率 。 


Y = tf.nn.softmax(evidence,name="output") 


输出 矩阵 Y 由 100 行 10 列 组 成 。 


为 训练 模型 并 判断 该 模型 性 能 ， 必 须 定义 一 个 度量 单位 。 实 际 上 ， 接 下 来 的 步骤 就 是 获取 w 
和 b 的 值 ， 使 该 度量 单位 的 值 最 小 ， 并 评价 该 模型 的 好 坏 。 


有 很 多 度量 单位 可 以 计算 实际 输出 和 期 望 输出 之 间 的 误差 程度 。 最 常见 的 误差 分 数 是 均 方 
差 ， 但 一 些 研究 也 针对 这 类 网 络 提出 了 其 他 类 似 的 度量 单位 。 


本 例 使 用 所 谓 的 cross_entropy (ZLK ) ERZEPRAS XWF: 
































cross_entropy = -tf.reduce_mean(Y_ * tf.log(Y)) * 1000.0 
我 们 使 用 梯度 下 降 算 法 ， 将 该 误差 函数 最 小 化 : 


train_step = tf.train.GradientDescentOptimizer(0.005). 
\minimize(cross_entropy) 


此 处 将 学 习 率 设置 为 0.005。 
车 网 络 输出 值 Y 与 期 望 输 出 值 Y_ 相 等 ， 则 说 明 预 测 正确 : 


correct_prediction = tf.equal(tf.argmax(Y, 1),\ 
tf.argmax(Y , 1)) 


correct_prediction 变 量 可 用 于 定义 模型 的 准确 率 。 


accuracy = tf.reduce_mean(tf.cast (correct_prediction, \ 
tf.float32)) 


接 下 来 定义 汇总 ， 方 便 后 续 用 TensorBoard 进 行 分 析 。 





tf.summary.scalar("cost", cross entropy) 
tf.summary.scalar("accuracy", accuracy) 
summary op - tf.summary.merge all() 


最 后 ， 必 须 为 模型 建立 session 会 话 ， 用 以 触发 训练 和 测试 步骤。 
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with tf.Session() as sess: 
sess.run(tf.global variables initializer()) 
writer = tf.summary.FileWriter(logs path, \ 
graph-tf.get default, graph()) 


网 络 的 训练 过 程 是 迭代 的 。 在 每 轮 学 习 (或 每 个 时 期 ) 中 ， 网 络 会 使 用 选 定 的 子 集 (或 批量 
集 ) 对 突 触 权重 进行 小 型 更 新 。 
for epoch in range(training epochs): 


网 络 会 在 每 轮 学 习 或 每 个 时 期 中 ， 使 用 选 定 的 子 集 对 突出 权重 进行 小 型 更 新 。 









































batch count = int(mnist.train.num examples/batch size) 


选 定 的 子 集 分 别 为 batch_x 和 batch_y。 


for i in range(batch count): 
batch x, batch y - mnist.train.next batch(batch size) 


子 集会 被 feea_ai ct 语句 调用 ， 用 以 在 训练 过 程 中 对 网 络 进行 馈 给 。 
在 每 轮 学 习 中 : 


a 修改 权重 以 最 小 化 误差 函数 ; 
口 使 用 下 述 writer.add_summary 语 句 将 结果 添加 到 汇总 。 














_, summary = sess.run([train step, summary_op], \ 
feed_dict={X: batch_x,\ 
Y_: batch_y}) 


writer.add_summary (summary, \ 
epoch * batch_count + i) 


print "Epoch: ", epoch 
最 后 ， 我 们 可 以 测试 模型 并 评价 其 准确 率 accuracy。 


print "Accuracy: ", accuracy.eval\ 
(feed_dict={X: mnist.test.images, \ 
Y_: mnist.test.labels}) 
print "done" 


网 络 测试 完成 后 , 继续 留 在 会 话 内 部 , 在 单一 图 像 上 运行 网 络 模型 。 例 如 , 可 以 利用 randint 
函数 ， 从 mnist .test 数 据 库 随机 选取 一 张 图 片 。 


num = randint(0, mnist.test.images.shape[0]) 
img = mnist.test.images [num] 


这 样 即 可 将 前 面 实现 的 分 类 器 用 在 选 定 的 图 像 上 。 
classification = sess.run(tf.argmax(Y, 1), feed_dict={X: [img]}) 


sess.xrun 了 图 数 的 参数 分 别 为 网 络 的 输出 和 输入 。tf.argmax(Y，L1) 函数 返回 7 张 量 的 最 大 
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索引 值 ， 即 我 们 要 找 的 图 像 。 接 下 来 的 一 个 参数 feedq_aict={X: [img] 


图 像 馈 给 网 络 。 
最 后 输出 结 





print 'Neural Network predicted', 
print 'Real label is:' 


程序 的 执行 结果 显示 如 下 。 


>>> 
Loading 
Loading 
Loading 
Loading 
Epoch: 

Epoc 
Epoc 
Epoc 
Epoc 
Epoc 
Epoc 
Epoc 
Epoc 
Epoc 





DD Do F555 5D 5 


吉 果 ， 即 预测 的 标签 和 正确 的 标签 





data/train-images-idx3-ubyte.mnist 
data/train-labels-idxl-ubyte.mnist 
data/t10k-images-idx3-ubyte.mnist 
data/ti10k-labels-idxi-ubyte.mnist 
0 
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然后 输出 模型 准确 率 : 


Accuracy: 


done 


0.9246 


The predicted and real label: 


Neural Network predicted 6 
Real label is: 6 


>>> 


模型 运 和 


可 视 化 


若 要 运行 TensorBoard， 需 要 在 执行 代码 的 文件 夹 中 打开 终 


classification[0] 
, np.argmax(mnist.test.labels [num] ) 


可 以 看 到 ， 载 人 MNIST 数 据 后 ， 训 练 时 期 显示 到 第 9 次 。 





完成 后 ， 使 用 TensorBoard 对 执行 过 程 中 的 各 阶段 进行 分 析 。 


$> tensorboard --logdir='log_simple_stats_softmax' 


TensorBoard 运 行 后， 将 浏览 器 转 到 1localhost :6006， 查 看 TensorBoard 的 起 始 页 。 


查看 TensorBoard 时 ， 你 将 在 右上 角 找 到 导航 标签 。 


每 个 标签 代表 一 


} ， 人 允许 我 们 将 选 定 的 


和 端 ， 并 输入 以 下 命令 


系列 可 被 可 视 化 的 连续 
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图 3-6 展 示 了 本 例 中 实现 的 分 类 器 的 计算 图 。 

















图 3-6 ”softmax 分 类 器 图 示 
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3.5 TensorFlow 模型 的 保存 和 还 原 
假设 需要 重复 使 用 已 训练 好 的 模型 ， 而 不 是 每 次 使 用 都 对 其 重新 训练 。 











3.5.1 保存 模型 
要 保存 一 个 模型 ,可 以 使 用 saver () 类 。 该 类 使 用 检验 点 保存 图 结构 : 保存 的 格式 为 二 进 抽 
文件 ， 对 变量 名 与 张 量 值 建立 映射 。 模 型 会 保存 到 当前 工作 区 的 以 下 两 个 文件 。 


口 softmax_mnist.ckpt: 保存 权重 
口 softmax_mnist.ckpt.meta: 保存 图 的 定义 


保存 方法 是 ， 将 下 述 代码 插 和 人 模型 末尾 : 
saver = tf.train.Saver() 


save_path = saver.save(sess, "softmax_mnist") 
print ("Model saved to %s" % save path) 














3.5.2 还原 模型 
新 建 一 个 文件 ， 创 建 下 述 脚本 以 还 原配 置 好 的 网 络 。 
首先 载 人 所 需 库 : 


import matplotlib.pyplot as plt 
import tensorflow as tf 

import input_data 

import numpy as np 

import mnist_data 


接着 ,使 用 下 述 语句 添加 MNIST 数 据 集 : 





mnist = mnist_data.read_data_sets('data', one_hot=True) 
am ux ^. 

实现 一 个 迭代 的 会 话 : 

sess = tf.InteractiveSession() 


下 列 语句 用 于 导入 已 保存 的 计算 图 元 数据 ， 其 中 包含 我 们 所 需 模 型 的 所 有 拓扑 结构 及 相应 


Ke 
al 


new_saver = tf.train.import_meta_graph('softmax_mnist.ckpt.meta') 
然后 导入 检验 点 文件 ， 其 中 包含 训练 过 程 中 得 出 的 权重 值 : 


new saver.restore(sess, 'softmax mnist.ckpt') 
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若 要 运行 已 载 人 的 模型 ， 我 们 需要 其 计算 图 。 可 以 通过 以 下 函数 调用 : 
tf.get default graph() 
下 面 的 函数 将 返回 当前 线程 中 所 用 的 默认 图 : 
tf.get default graph().as graph def() 


接 下 来 定义 xz 和 y_conv 变 量 ， 并 将 它们 和 我 们 需要 处 理 的 节点 相连 接 ， 以 实现 网 络 的 输入 / 
输出 : 


x = sess.graph.get_tensor_by_name("input:0") 
y conv = sess.graph.get_tensor_by_name("output:0") 


为 测试 保存 的 模型 ， 我 们 从 MNIST 数 据 库 中 取 一 个 图 像 。 
image_b = mnist.test.images[100] 


然后 在 选 定 的 输入 上 运行 保存 的 模型 : 




















result = sess.run(y_conv, feed_dict={x:image_b}) 


result 变 量 是 一 个 输出 张 量 ， 包 含 10 项 ， 每 一 项 代表 图 像 被 分 类 为 10 个 数字 之 一 的 概率 。 
因此 ， 打 印 结果 及 最 高 概率 的 索引 ， 即 图 像 被 分 类 成 的 数字 。 


print (result) 
print (sess.run(tf.argmax(result, 1)) 


Ji Fi MmatplotlibhSAMpit rK 数 ， 以 展示 分 类 图 像 : 


plt.imshow(image b.reshape([28, 28]), cmap-'Greys') 
plt.show() 


运行 网 络 ， 应 该 得 到 如 下 输出 : 


>>> 

Loading data/train-images-idx3-ubyte.mnist 

Loading data/train-labels-idxl-ubyte.mnist 

Loading data/t10k-images-idx3-ubyte.mnist 

Loading data/t10k-labels-idxl-ubyte.mnist 

[[ 5.37428750e-05 6.65060536e-04 1.42298099e-02 3.05720314e-04 
2.49665667e-04 6.00658204e-05 9.83844459e-01 4.97680194e-05 
4.59994393e-04 8.17739274e-05]] 





[6] 


数组 中 的 最 大 元 素 值 为 9.83844459e-01 (= 90% )， 对 应 数字 6， 如 图 3-7 所 示 。 
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3.5. 

















图 3-7 被 分 类 图 像 
当然 ， 若 要 确认 分 类 结果 正确 与 否 ， 依 然 需要 调 出 被 分 类 原始 图 像 进行 检验 。 


3 softmax 源 代码 
下 面 给 出 softmax 分 类 器 的 完整 源 代码 : 


import tensorflow as tf 

import mnist_data 

import matplotlib.pyplot as plt 
from random import randint 
import numpy as np 


logs path = 'log mnist softmax' 
batch, size - 100 

learning rate - 0.5 

training epochs - 10 


mnist - mnist data.read data sets("data") 
X - tf.placeholder(tf.float32, [None, 28, 28, 1],name-"input") 
Y - tf.placeholder(tf.float32, [None, 10]) 


W - tf.Variable(tf.zeros([784, 10])) 
b = tf.Variable(tf.zeros([10])) 





XX - tf.reshape(X, [-1, 784]) 
Y = tf.nn.softmax(tf.matmul(XX, W) + b,name="output") 
cross_entropy = -tf.reduce_mean(Y_ * tf.log(Y)) * 1000.0 


correct_prediction = tf.equal(tf.argmax(Y, 1),\ 
tf.argmax(Y_, 1)) 
accuracy = tf.reduce_mean(tf.cast (correct_prediction, \ 
tf£.float32) ) 
train step = tf.train.GradientDescentOptimizer\ 
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(0.005) .minimize (cross_entropy) 


tf.summary.scalar("cost", cross_entropy) 
tf.summary.scalar("accuracy", accuracy) 
summary op = tf.summary.merge all() 


with tf.Session() as sess: 
sess.run(tf.global variables initializer()) 


writer - tf.summary.FileWriter(logs path, graph-tf.get default graph()) 
for epoch in range(training. epochs): 
batch count - int(mnist.train.num examples/batch, size) 
for i in range (batch count): 
batch x, batch y = mnist.train.next batch(batch size) 
sess.run(train step,feed dict-(X: batch x,\ 
Y xc paren wr) 
print "Epoch: ", epoch 
print "Accuracy: ", accuracy.eval\ 
(feed dict-(X: mnist.test.images, \ 
Y : mnist.test.labels)) 
print "done" 


num - randint(0, mnist.test.images.shape[0]) 
img - mnist.test.images[num] 


classification = sess.run(tf.argmax(Y, 1),\ 
feed dict-(X: [img])) 
print 'Neural Network predicted', classification[0] 
print 'Real label is:', np.argmax(mnist.test.labels[num]) 


saver - tf.train.Saver() 
save path - saver.save(sess, "saved mnist cnn.ckpt") 


9. 


print ("Model saved to %s" $ save path) 


3.5.4 softmax 启动 器 源 代码 
若 要 载 人 网 络 并 在 某 个 图 像 上 测试 ， 需 要 执行 以 下 几 行 完整 代码 : 


import matplotlib.pyplot as plt 
import tensorflow as tf 

imort numpy as np 

import mnist_data 


mnist = mnist_data.read_data_sets('data', one_hot=True) 

sess = tf.InteractiveSession() 

new_saver = tf.train.import_meta_graph('saved_mnist_cnn.ckpt.meta') 
new saver.restore(sess, 'saved_mnist_cnn.ckpt') 

tf.get default graph().as. graph def() 

X = Sgess.graph.get tensor by name("input:0") 

y. conv = gess.graph.get tensor by name("output:0") 

image b - mnist.test.images[100] 

result = sess.run(y conv, feed dict-(x:image b)) 

print (result) 
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print(sess.run(tf.argmax(result, 1))) 


plt.imshow(image b.reshape([28, 28]), cmap='Greys') 
plt.show() 
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接 下 来 ， 我 们 在 softmax 层 之 前 加 入 4 个 层 ， 使 网 络 更 为 复杂 。 人 们 一 般 依 靠 观 察 、 个 人 经 验 
或 合适 的 实验 来 确定 合适 的 网 络 大 小 ， 即 隐藏 层 的 数量 及 每 层 的 神经 元 数 。 


表 3-1 总 结 了 我 们 实现 的 网 络 架构 ， 其 中 包括 每 层 的 神经 元 数量 及 对 应 的 激活 函数 。 














表 3-1 网 络 架构 的 不 同 层级 





层 神经 元 数 激活 函数 
第 一 层 L=200 sigmoid 
第 二 层 M=100 sigmoid 
第 三 层 N=60 sigmoid 
第 四 层 O=30 sigmoid 
第 五 层 10 softmax 








HUGE AY P8 PRA sigmoid PA; Ina — JAA P335 PRI 4E Ze softmax PR ZA, DSL 92 Bg 
出 必须 表示 为 输入 数字 的 概率 。 一 般 情 况 下 ， 中 间 层 的 数量 和 大 小 对 网 络 性 能 影响 很 大 。 


a 从 正面 角度 讲 ， 网 络 就 是 利用 这 些 层 来 扩展 和 识别 输入 的 特征 。 
a 从 负面 角度 讲 ， 如 果 网 络 元 余 ， 那 么 学 习 过 程 就 会 被 拖 慢 。 


现在 开始 实现 这 一 网 络 。 首 先导 入 以 下 库 : 























import mnist_data 
import tensorflow as tf 
import math 





然后 定义 以 下 配置 参数 : 
logs path = 'log_simple_stats_5_layers_relu_softmax' 





batch_size = 100 
learning_rate = 0.5 
training_epochs = 1 


接着 下 载 图 像 和 标签 ， 并 准备 数据 集 : 

mnist = mnist_data.read_data_sets ("data") 

现在 ， 从 输入 层 开 始 构建 网 络 架构 。 

输入 层 现 在 是 一 个 形状 为 [1x784] 的 张 量 ， 代 表 待 分 类 图 像 : 


0 
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X = tf.placeholder (tf.float32, [None, 28, 28, 1]) 
XX = tf.reshape(X, [-1, 784]) 


网 络 的 第 一 层 接收 待 分 类 输入 图 像 的 像素 , 与 w1 权 重 连接 组 合 , 并 与 对 应 的 B1 偏 差 张 量 
相 加 : 


W1 = tf.Variable(tf.truncated normal([784, L], stddev=0.1)) 
tf.Variable(tf.zeros([L])) 


第 一 层 通 过 sigmoid 激 活 函 数 ， 将 自己 的 输出 传 给 第 二 层 : 
Y1 = tf.nn.sigmoid(tf.matmul(XX, W1) + B1) 
第 二 层 接 收 第 一 层 的 输出 Y1， 并 将 其 与 w2 权 重 连接 组 合 ， 再 加 上 对 应 的 B2 偏 差 张 量 : 


W2 = tf.Variable(tf.truncated normal([L, M], stddev=0.1)) 
B2 - tf.Variable(tf.zeros([M])) 


第 二 层 通过 sigmoid 激 活 函 数 ， 将 输出 传 给 第 三 层 ; 
Y2 = tf.nn.sigmoid(tf.matmul(Y1, W2) + B2) 
第 三 层 接收 第 二 层 的 输出 Y2 ， 与 W3 权 重 连接 组 合 起 来 ， 并 与 对 应 的 B3 偏 差 张 量 相 加 


tf.Variable(tf.truncated normal([M, N], stddev=0.1)) 
B3 - tf.Variable(tf.zeros([N])) 


第 三 层 通过 sigmoid 激 活 函 数 ， 将 输出 传 给 第 四 层 : 
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Y3 = tf.nn.sigmoid(tf.matmul(Y2, W3) + B3) 


第 四 层 接 收 第 三 层 的 输出 Y3， 与 w4 权 重 连接 组 合 起 来 ， 并 与 对 应 的 B4 偏 差 张 量 相 加 : 


WA = tf.Variable(tf.truncated normal([N, 0], stddev=0.1)) 
B4 = tf.Variable(tf.zeros([0])) 


第 四 层 通过 sigmoid 激 活 函 数 ， 将 输出 传 给 第 五 层 : 
Y4 = tf.nn.sigmoid(tf.matmul(Y3, W4) + B4) 


第 五 层 将 从 第 四 层 接收 0 = 30 的 激励 作为 输入 ， 这 些 输入 会 通过 softmax 激 活 函数 ， 转 化 为 
每 个 数字 对 应 的 概率 : 


W5 = tf.Variable(tf.truncated normal([O, 10], stddev=0.1)) 
B5 - tf.Variable(tf.zeros([10])) 

Ylogits = tf.matmul (Y4, W5) + B5 

Y - tf.nn.softmax(Ylogits) 


WEAR BTE KR, HER Sjsoftmax Pia PRU AE Bas Rz IRIS SUiljicross- entropy: 





























cross entropy = tf.nn.softmax cross entropy with logits(logits-Ylogits, labels-Y ) 
cross, entropy = tf.reduce mean(cross entropy)*100 
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tf.train.AdamOptimizer 使 用 Kingma 和 Ba’s Adam 算 法 (https://arxiv.org/pdf/1412.6980v 
8.pdf ) 控制 学 习 率 。Adamoptimizer 比 简单 的 tf.train.GradientDescentOptimizer 有 几 
个 优势 ， 实 际 上 ， 前 者 使 用 了 更 大 的 有 效 更 新 步 长 ， 这 样 算法 不 需要 经 过 微调 即 可 收敛 。 


learning_rate = 0.003 
train step = tf.train.AdamOptimizer(learning rate).minimize(cross entropy) 


另外 ， 我 们 定义 correct_prediction 和 模型 的 准确 率 accuracy: 





correct_prediction = tf.equal(tf.argmax(Y, 1), tf.argmax(Y_, 1)) 
accuracy = tf.reduce mean(tf.cast(correct prediction, tf.float32)) 


定义 汇总 和 运行 会 话 的 源 代码 基本 和 前 面 讲 过 的 相同 。 此 处 可 以 跳 过 这 一 部 分 ， 直接 对 模 
型 进行 评估 。 运行 模型 后 得 到 的 输出 如 下 。 运行 这 些 代 码 , 最 终 测 试 集 得 到 的 准确 率 应 该 为 97% 
左右 : 








>>> 

Loading data/train-images-idx3-ubyte.mnist 
Loading data/train-labels-idxl-ubyte.mnist 
Loading data/t10k-images-idx3-ubyte.mnist 
Loading data/t10k-labels-idxl-ubyte.mnist 
Epoch: 0 

Epoc 
Epoc 
Epoc 
Epoc 
Epoc 
Epoc 
Epoc 
Epoc 
Epoch: 
Accuracy: 0.9744 
done 

>> 
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3.6.1 可 视 化 
现在 , 我 们 可 以 开始 使 用 TensorBoard 了 。 只 需 在 代码 运行 文件 夹 中 打开 终端 ， 并 输入 以 


Fare: 


$> Tensorboard --logdir-'log simple stats 5 layers relu softmax' 


然后 ， 打 开 浏览 器 ， 转 到 localhost。 
图 3-8 展 示 了 代价 函数 (cost function) 随 训练 集 样本 数量 的 变化 趋势 。 

















cost 
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图 3-8 ”不同 训练 样本 数量 的 代价 函数 


代价 函数 随 迭 代 次 数 的 增加 逐渐 减少 ， 图 3-8 的 趋势 是 完全 正确 的 。 如 果 你 得 到 的 趋势 不 是 
这 样 的 , 那么 中 间 肯 定 有 些 东 西 做 错 了 。 最 好 的 情况 可 能 只 是 有 儿 个 参数 没有 设置 好 ， 比 较 差 的 
情况 可 能 是 数据 集 有 问题 ， 比 如 信息 量 不 足 、 图 像 质 量 差 等 。 如 果 直 到 这 种 情况 ,必须 直接 修改 
数据 集 。 



































3.6.2 ”五 层 神 经 网 络 源 代码 
现在 给 出 本 节 完 整 源 代码 : 


import mnist_data 
import tensorflow as tf 
import math 


logs path = 'log simple stats 5 layers relu softmax' 
batch size = 100 

learning rate - 0.5 

training epochs - 10 





mnist - mnist data.read data sets("data") 


the images in the mini-batch 
X - tf.placeholder(tf.float32, [None, 28, 28, 1]) 
Y - tf.placeholder(tf.float32, [None, 10]) 


lr = tf.placeholder(tf.float32) 
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L200 

M= 100 

N = 60 

oO = 30 

Wl. = .Variabl .truncated normal([784, L], stddev=0.1) ) 
Bl = .Variabl .ones([L])/10) 

W2 = .Variabl .truncated normal([L, M], stddevz0.1)) 
B2 = .Variabl .ones([M]) /10) 

W3 = .Variabl .truncated normal([M, N], stddevz0.1)) 
B3. .Variabl .ones([N]) /10) 

WA - .Variabl truncated normal([N, O], stddev=0.1)) 
B4 = .Variabl .ones([0]) /10) 

WS = .Variabl .truncated normal([O, 10], stddev=0.1)) 
B5 = .Variabl .zeros([10])) 

XX = t (X, [-1, 784]) 

Yl = tf.nn.relu(tf.matmul (XX, W1) + B1) 

Y2 = tf.nn.relu(tf.matmul(Y1, W2) + B2) 

Y3 = tf.nn.relu(tf.matmul(Y2, W3) + B3) 

Y4 = tf.nn.relu(tf.matmul(Y3, W4) + B4) 

Ylogits = tf.matmul (Y4, W5) + B5 

Y = tf.nn.softmax(Ylogits) 





cross entropy = tf.nn.softmax cross entropy with logits(logits-Ylogits, labels-Y ) 
cross, entropy - tf.reduce mean(cross entropy)*100 





correct prediction - tf.equal(tf.argmax(Y, 1), tf.argmax(Y , 1)) 
accuracy - tf.reduce mean(tf.cast(correct prediction, tf.float32)) 
train step = tf.train.AdamOptimizer(lr).minimize(cross entropy) 


tf.summary.scalar("cost", cross entropy) 
tf.summary.scalar("accuracy", accuracy) 
summary op - tf.summary.merge all() 


init = tf.global, variables initializer() 
sess = tf.Session() 
sess.run(init) 


with tf.Session() as sess: 
sess.run(tf.global variables initializer()) 
writer = tf.summary.FileWriter (logs path,WN 
graph-tf.get default graph()) 


for epoch in range(training. epochs): 
batch, count - int(mnist.train.num examples/batch size) 
for i in range(batch, count): 
batch x, batch y = mnist.train.next  batch(batch size) 
_, Summary = sess.run([train step, summary op], 
feed dict-(X: batch x,\ 
Y : batch yJ) 
writer.add summary (summary, 
epoch * batch count + i) 
dif epoch $ 2 == 0: 
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print "Epoch: ", epoch 


print "Accuracy: ", accuracy.eval\ 
(feed_dict={X: mnist.test.images, \ 
Y_: mnist.test.labels}) 
print "done" 


3.7 ReLU 分 类 器 


上 一 个 架构 变动 改进 了 我 们 模型 的 分 类 准确 率 ， 但 仍 可 以 将 sigmoid 激 活 函 数 改 为 线性 修正 
单元 ， 并 获得 更 大 的 改进 。 该 函数 的 图 像 如 图 3-9 所 示 。 
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zu -2 0 2 4 











图 3-9 ReLU 函 数 


线性 修正 单元 (Rectified Linear Unit, ReLU ) 的 函数 形式 为 Ka)=max(0, x)。ReLU 的 运算 速 
度 很 快 ， 因 为 它 不 需要 进行 指数 运算 ， 这 一 点 与 sigmoid 和 tanh 等 激活 函数 不 同 。 另 外 ， 与 
sigmoid/tanh 相 比 ，ReLU 可 以 大 大 加 速 随机 梯度 下 降 的 收敛 速度 。 


为 使 用 ReLU 函 数 ， 只 需 将 前 面 实现 的 模型 前 四 层 的 几 个 定义 改 成 下 述 语 句 。 
第 一 层 输出 : 


Y1 = tf.nn.relu(tf.matmul (XX, W1) + B1) 
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第 二 层 输出 : 
Y2 = tf.nn.relu(tf.matmul(Y1, W2) + B2) 


第 三 层 输出 : 





N 





Y3 = tf.nn.relu(tf.matmul(Y2, W3) + B3) 
第 四 层 输出 : 


Y4 = tf.nn.relu(tf.matmul(Y3, W4) + B4) 




















当然 ，tf .nn.relu 是 TensorFlow 对 ReLU 的 实现 。 


此 时 模型 的 准确 率 达 到 约 98%， 运 行 代码 后 可 得 到 如 下 输出 : 








>>> 

Loading data/train-images-idx3-ubyte.mnist 
Loading data/train-labels-idxl-ubyte.mnist 
Loading data/t10k-images-idx3-ubyte.mnist 
Loading data/t10k-labels-idxl-ubyte.mnist 





Epoch: 0 
Epoch: 1 
Epoch: 2 
Epoch: 3 
Epoch: 4 
Epoch: 5 
Epoch: 6 
Epoch: 7 
Epoch: 8 
Epoch: 9 
Accuracy: 0.9789 
done 

>>> 


3.8 可视化 
和 前 面 一 样 , 利用 TensorBoard 对 模型 进行 分 析 。 在 代码 运行 的 文件 夹 打 开 终 端 , 输入 以 下 


命令 : 


$> Tensorboard --logdir-'log simple stats 5 layers relu softmax' 


然后 打开 浏览 器 ， 转 到 localhost， 查 看 TensorBoard 的 起 始 页 。 
图 3-10 展 示 了 分 类 准确 率 随 训练 集 样本 数量 的 变化 趋势 。 
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准确 率 
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图 3-10 不 同 训练 样本 的 准确 率 


从 图 3-10 中 可 以 很 容易 地 看 出 ,一 开始 的 分 类 准确 率 很 低 , 但 在 约 1000 个 训练 样本 参与 训练 
后 ， 准 确 率 得 到 迅速 改进 。 














ReLU 分 类 器 源 代码 
下 面 给 出 ReLU 分 类 顺 实 现 的 完整 源 代 码 : 


import mnist_data 
import tensorflow as tf 
import math 


logs_path = 'log_simple_stats_5_layers_relu_softmax' 
batch_size = 100 

learning_rate = 0.5 

training_epochs = 10 





mnist = mnist data.read data sets("data") 


X - tf.placeholder(tf.float32, [None, 28, 28, 1]) 
Y - tf.placeholder(tf.float32, [None, 10]) 
lr = tf.placeholder(tf.float32) 


# five layers and their number of neurons (tha last layer has 10 softmax neurons) 
L = 200 

M = 100 

N = 60 

O 30 
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W1 = .Variabl F.truncated normal([784, L], stddev=0.1 
Bl = .Variabl .ones([L])/10) 

W2 = .Variabl truncated normal([L, M], stddev=0.1)) 
B2 = .Variabl ones ( [M] )/10) 

W3 = .Variabl .truncated normal([M, N], stddevz0.1)) 
B3 = .Variabl .ones([N]) /10) 

WA - .Variabl .truncated normal([N, O], stddevz0.1)) 
BA = .Variabl .ones([0]) /10) 

W5 = .Variabl .truncated normal([O, 10], stddev=0.1)) 
B5 x .Variabl .zeros([10])) 

XX = tf.reshape(X, [-1, 784]) 

Y1 = tf.nn.relu(tf.matmul (XX, W1) + B1) 

Y2 = tf.nn.relu(tf.matmul(Y1, W2) + B2) 

Y3 = tf.nn.relu(tf.matmul(Y2, W3) + B3) 

Y4 = tf.nn.relu(tf.matmul(Y3, W4) + B4) 

Ylogits = tf.matmul (Y4, W5) + B5 

Y = tf.nn.softmax(Ylogits) 





cross entropy = tf.nn.softmax cross entropy with logits(logits-Ylogits, labels-Y ) 
cross, entropy - tf.reduce mean(cross entropy)*100 





correct prediction - tf.equal(tf.argmax(Y, 1), tf.argmax(Y , 1)) 
accuracy - tf.reduce mean(tf.cast(correct prediction, tf.float32)) 


train step = tf.train.AdamOptimizer(lr).minimize(cross entropy) 


#tensorboard parameters 

tf.summary.scalar("cost", cross entropy)tf.summary.scalar("accuracy", accuracy) 
summary op - tf.summary.merge all() 

init = tf.global, variables initializer() 

sess = tf.Session() 

sess.run(init) 





with tf.Session() as sess: 
sess.run(tf.global variables initializer()) 
writer = tf.summary.FileWriter (logs_path, \ 
graph-tf.get default, graph()) 


for epoch in range(training. epochs): 
batch, count - int(mnist.train.num examples/batch size) 
for i in range(batch, count): 
batch x, batch y - mnist.train.next batch(batch size) 
max learning rate 0.003 
min learning rate - 0.0001 
decay. speed - 2000 
learning rate = min learning rate+\ 
(max learning rate - min learning rate)\ 
* math.exp(-i/decay. speed) 
., Summary = sess.run([train step, summary op], 
(X: batch x, Y. : batch y; y 
lr: learning rate) 
writer.add summary (summary, \ 
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epoch * batch_count + i) 
print "Epoch: ", epoch 


print "Accuracy: ", accuracy.eval\ 
(feed_dict={X: mnist.test.images, Y_: mnist.test.labels}) 
print "done" 


3.9 dropout 优化 


在 学 习 阶 段 , 网络 层 与 下 一 层 的 连接 可 以 限制 为 神经 元 的 一 个 子 集 ， 以 减少 需要 更 新 的 权重 
数量 。 这 种 学 习 优 化 技术 称 为 ropout 优 化 。 因 此 ，dropout 技 术 可 以 减少 层 数 较 多 和 /或 神经 元 数 
量 较 多 的 网 络 的 过 拟 合 问题 。 一 般 情 况 下 ，dropout 层 置 于 训练 神经 元 较 多 的 网 络 层 之 后 。 


这 种 技术 允许 神经 元 设 定 为 0, 然后 放弃 激活 前 一 层 中 特定 比例 的 神经 元 。“ 某 个 神经 元 的 激 
活 被 设 定 为 0” 的 概率 由 层 内 的 dropout 比 例 参数 标记 ， 为 一 个 0~1 的 值 。 在 实际 运行 中 ， 一 个 神经 
元 是 否 激活 依赖 于 由 dropout 比 率 定义 的 概率 值 ， 否 则 该 神经 元 不 会 被 激活 ， 即 设 定 为 0。 


因此 , 经 过 这 种 处 理 的 神经 元 在 前 向 传播 甚至 在 下 一 轮 反 向 传播 过 程 中 , 不 会 对 特定 输入 产 
影响 。 这样 ， 对 每 个 输入 ， 网 络 的 架构 都 会 产生 微小 变化 ， 有 些 连接 被 激活 ， 而 有 些 连 接 被 放 
Fo 每 轮 都 是 如 此 ， 即 使 这 些 架 构 都 拥有 相同 的 权重 。 图 3-11 展 示 了 dropout 的 工作 机 制 : 每 个 隐 
藏 单元 都 以 概率 p 被 随机 从 网 络 中 忽略 。 一 个 需要 注意 的 问题 是 ， 对 于 每 一 个 训练 实例 ， 选 出 的 
dropout 单 元 都 不 同 。 因 此 ， 在 训练 过 程 中 ，dropout 可 以 有 效 针 对 拥有 大 量 不 同 神经 元 的 网 络 模 
型 进行 平均 ， 从 而 用 很 少 的 计算 量 在 较 大 程度 上 避免 过 拟 合 问题 ， 而 无 需 改 变 网 络 结构 。 
















































































图 3-11 ”dropout 示 意图 


dropout 方 法 减少 了 一 个 神经 元 对 其 他 神经 元 依赖 的 可 能 ,所 以 网 络 被 迫 学 习 到 更 多 健壮 的 特 
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征 ， 这 些 特征 在 当前 神经 元 与 其 他 神经 元 有 连接 时 依然 有 效 。 
TensorFlow 中 ， 用 于 构建 dropout 层 的 函数 为 tf .nn.dropout。 


该 函数 的 输入 是 前 面 一 层 的 输出 和 一 个 dropout 参 数 ，tf .nn.dropout 返 回 一 个 与 输入 张 量 
大 小 相同 的 输出 张 量 。 


该 模型 的 实现 方法 和 前 面 的 五 层 神经 网 络 相 似 , 但 这 种 情况 下 , 在 两 个 网 络 层 之 间 需 要 插入 
一 个 dropout 函 数 。 















































dropout ratio = tf.placeholder(tf.float32) 
Yl = tf.nn.relu(tf.matmul(XX, W1) + B1) 
Yld = tf.nn.dropout(Y1, dropout ratio) 

Y2 = tf.nn.relu(tf.matmul(Y1d, W2) + B2) 
Y2d - tf.nn.dropout(Y2, dropout ratio) 

Y3 = tf.nn.relu(tf.matmul(Y2d, W3) + B3) 
Y3d - tf.nn.dropout(Y3, dropout ratio) 

Y4 = tf.nn.relu(tf.matmul(Y3d, W4) + B4) 
Y4d = tf.nn.dropout (Y4, dropout ratio) 


Ylogits = tf.matmul (Y4d, W5) + B5 
Y = tf.nn.softmax(Ylogits) 


dropout 优 化 将 产生 如 下 输出 : 





>>> 

Loading data/train-images-idx3-ubyte.mnist 
Loading data/train-labels-idxl-ubyte.mnist 
Loading data/t10k-images-idx3-ubyte.mnist 
Loading data/t10k-labels-idxl-ubyte.mnist 





Epoch: 0 
Epoch: 1 
Epoch: 2 
Epoch: 3 
Epoch: 4 
Epoch: 5 
Epoch: 6 
Epoch: 7 
Epoch: 8 
Epoch: 9 
Accuracy: 0.9666 
done 

>>> 

















尽管 我 们 实现 了 dropout 优 化 ， 但 现在 其 表现 仍然 没有 之 前 的 ReLU 网 络 好 。 你 可 以 试 着 通过 
调整 网 络 参 数 来 改善 该 模型 的 分 类 准确 率 。 
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3.10 可视化 
要 开始 用 TensorBoard 分 析 ， 只 需 输入 如 下 命令 : 


$» Tensorboard --logdir = 'log simple stats 5 lyers dropout' 


图 3-12 展 示 了 准确 率 随 训练 样本 数 的 变化 。 
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图 3-12 ”dropout 优 化 中 的 准确 率 
图 3-13 展 示 了 代价 函数 cost 的 值 随 着 训练 样本 数 的 变化 。 








cost 


220 
200 
180 


ra 
eal 


0.000 1.000k 2.000k 3.000k 4.000k 5.000k 6.000k 











图 3-13 ”训练 集 上 的 代价 函数 
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图 3-12 和 图 3-13 中 的 趋势 都 是 正确 的 ， 随 着 训练 样本 的 增加 ， 分 类 准确 率 增加 ; 随 着 迭代 次 


数 的 增加 ， 代 价 函 数值 减少 。 


dropout 优化 源 代码 























dropout 优 化 是 前 馈 神 经 网 络 实现 的 最 后 一 步 。 下 面 是 dropout 优 化 的 完整 代码 ， 供 各 位 继续 


分 析 和 实现 : 


import mnist_data 
import tensorflow as tf 
import math 


logs_path = 
batch_size = 100 

learning_rate = 0.5 
training_epochs = 









































mnist = mnist data.read data sets("data") 
X - tf.placeholder(tf.float32, [None, 28, 28, 
Y - tf.placeholder(tf.float32, [None, 10]) 
lr = tf.placeholder (tf.float32) 
pkeep = tf.placeholder (tf.float32) 
L = 200 
M = 100 
N = 60 
oO = 30 
W1 = tf.Variable(tf.truncated normal([784, L] 
Bl = tf.Variable(tf.ones([L])/10) 
W2 = tf.Variable(tf.truncated_normal([L, M], 
B2 = tf.Variable(tf.ones([M])/10) 
W3 - tf.Variable(tf.truncated normal([M, N], 
B3 - tf.Variable(tf.ones([N])/10) 
W4 = tf.Variable(tf.truncated normal([N, O], 
B4 = tf.Variable(tf.ones([O])/10) 
W5 - tf.Variable(tf.truncated normal([O, 10], 
B5 - tf.Variable(tf.zeros([10])) 
The model, with dropout at each layer 
XX - tf.reshape(X, [-1, 28*28]) 
Y1 = tf.nn.relu(tf.matmul(XX, W1) + B1) 
yid = tf.nn.dropout(Y1, pkeep) 
Y2 = tf.nn.relu(tf.matmul(Y1d, W2) + B2) 
Y2d - tf.nn.dropout(Y2, pkeep) 
Y3 = tf.nn.relu(tf.matmul(Y2d, W3) + B3) 
Y3d - tf.nn.dropout(Y3, pkeep) 


'log simple stats 5 lyers dropout' 


11) 


, stddev=0.1)) 


stddev=0.1)) 


stddev=0.1)) 


stddev=0.1)) 


stddev=0.1)) 
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Y4 = tf.nn.relu(tf.matmul(Y3d, W4) + B4) 


Y4d 


= tf.nn.dropout (Y4, pkeep) 


Ylogits = tf.matmul(Y4d, W5) + B5 


Y 


tf.nn.softmax(Ylogits) 


cross entropy - tf.nn.softmax cross entropy with logits(logits-Ylogits, 
cross, entropy = tf.reduce mean(cross entropy)*100 





correct prediction - tf.equal(tf.argmax(Y, 1), tf.argmax(Y , 1)) 
accuracy - tf.reduce mean(tf.cast(correct prediction, tf.float32)) 
train step = tf.train.AdamOptimizer(lr).minimize(cross entropy) 


tf.summary.scalar("cost", cross entropy) 
tf.summary.scalar("accuracy", accuracy) 
summary op - tf.summary.merge all() 

init - tf.global variables initializer() 
sess = tf.Session() 

sess.run(init) 


with tf.Session() as sess: 


3.11 


sess.run(tf.global variables initializer()) 
writer = tf.summary.FileWriter (logs path,N 
graph-tf.get default, graph()) 


for epoch in range(training. epochs): 
batch count - int(mnist.train.num examples/batch, size) 
for i in range(batch count): 
batch x, batch y - mnist.train.next, batch(batch size) 
max learning rate - 0.003 
min learning rate - 0.0001 
decay. speed - 2000 
learning rate = min learning _ rate+\ 
(max learning rate - min learning rate)\ 
* math.exp(-i/decay. speed) 
., Summary = sess.run([train step, summary op], 
iX: batch x, Y 3: bateh y,;X 
pkeep: 0.75, lr: learning rateJ) 
writer.add summary (summary, \ 
epoch * batch count + i) 


print "Epoch: ", epoch 


print "Accuracy: ", accuracy.eval\ 
(feed dict-(X: mnist.test.images, \ 
Y : mnist.test.labels, pkeep: 0.75)) 
print "done" 


小 结 


我 们 讲解 了 如 何 实 现 一 个 前 馈 神 经 网 络 架构 ， 以 处 理 图 像 分 类 问题 。 


labels=Y_) 
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一 个 前 馈 神 经 网 络 包含 一 系列 输入 单元 、 一 系列 输出 单元 ,以 及 一 个 或 多 个 隐藏 单元 ,负责 
连接 输入 单元 与 输出 单元 。 每 层 之 间 节 点 的 连接 是 完全 的 ， 而 且 方向 相同 : 每 个 单元 从 上 一 层 的 
所 有 单元 接收 信号 , 产生 输出 值 ， 加 权 并 发 射 到 下 一 层 的 所 有 单元 。 对 于 每 一 层 ， 必须 定 义 一 个 
传递 函数 ( sigmoid 、softmax、ReLU 等 )。 选 择 何 种 传递 函数 依赖 于 网 络 架 构 ， 以 及 需要 解决 的 
具体 问题 。 














然后 我 们 实现 了 4 种 不 同 的 前 馈 神 经 网 络 模型 : 第 一 种 只 含有 一 个 隐藏 层 ， 激 活 函 数 为 
softmax eK; 其 余 三 种 更 加 复杂 ， 总 共有 5 个 隐藏 层 ， 但 激活 函数 不 同 。 
口 4 个 sigmoid 层 和 一 个 softmax 层 
口 4 个 ReLU 层 和 一 个 softmax 层 
口 4 个 带 有 dropout 优 化 的 ReLU 层 和 一 个 sofmax 层 











下 一 章 将 探究 更 加 复杂 的 神经 网 络 模 型 一 一 卷 积 神经 网 络 , 该 网 络 对 深度 学 习 技术 产生 了 深 
远 的 影响 。 我 们 将 学 习 它 的 主要 特性 ， 并 实现 几 个 示例 。 


TensorFlow 与 卷 积 神经 网 络 











卷 积 神经 网 络 是 一 种 深度 学 习 网 络 , 在 很 多 实际 应 用 中 一 一 最 早 是 在 物体 识别 领域 一 一 都 有 
优秀 的 表现 。CNN 架 构 被 组 织 为 一 系列 的 块 , 第 一 个 块 由 两 种 层 组 成 : 卷 积 层 和 池 化 层 ; 后 面 的 
块 为 完全 连接 的 、 带 有 softmax 层 的 许多 网 络 层 。 

本 章 将 讲解 CNN 网 络 应 用 于 图 像 分 类 的 两 个 例子 。 第 一 个 问题 为 经 典 的 MNIST 数 字 分 类 系 
统 , 我 们 会 看 到 如 何 通 过 构建 CNN 网 络 实现 99% 的 分 类 准确 率 。 第 二 个 例子 的 训练 集 来 自 Kaggle 
平台 ， 此 处 的 目的 是 在 一 系列 人 脸 图 像 上 训练 网 络 ， 从 而 实现 表情 分 类 。 

我 们 将 评价 模型 的 分 类 准确 率 ， 然 后 用 一 张 不 属于 原 数据 集 的 图 片 对 模型 进行 测试 。 

本 章 包含 以 下 主题 
































口 CNN 简 介 

口 CNN 架 构 

O 一 个 CNN 模 型 一 —LeNet 
口 构建 你 的 第 一 个 CNN 
口 CNN 表 情 识别 











4.1 CNN 简介 





近 几 年 ， 深 度 神经 网 络 成 为 学 术 界 和 工业 界 的 一 个 狐 新 推动 力 ， 得 到 越 来 越 广泛 的 应 用 。 
卷 积 神经 网 络 是 一 种 特殊 的 深度 神经 网 络 ， 其 在 图 像 分 类 问题 上 的 应 用 已 经 取得 非常 成 功 的 
效果 。 


讲解 CNN 图 像 分 类 器 的 实现 之 前 ， 我 们 先 介绍 一 些 图 像 识别 的 基本 概念 ， 如 特征 检测 和 卷 


























众所周知 , 真正 的 图 像 由 一 个 网 格 组 成 ,网 格 包含 大 量 小 方块 , 这 些小 方块 称 为 像素 。 图 4-1 
展示 了 一 个 黑白 图 像 ， 由 5 x 5 格 像素 组 成 。 
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ii 
图 4-1 黑白 图 像 

网 格 中 的 每 个 元 素 对 应 一 个 像素 。 在 这 个 黑白 图 像 的 例子 中 ， 假 设 值 为 1 的 像素 对 应 黑色 ， 
值 为 0 的 像素 对 应 白色 。 在 灰 阶 图 像 中 ， 每 个 网 格 元 素 的 取 值 范围 为 [0, 255]，0 代 表 黑 色 ，255 代 
XH. 

Bon, EAR HA ARMs, BEARER TB ( 红 、 绿 、 蓝 ); 每 个 矩阵 
上 的 每 个 元 素 可 在 [0, 255] 整 个 区 间 上 变化 ， 以 确定 亮度 和 基础 颜色 (或 基色 )。 









































彩色 图 像 的 示意 图 如 图 4-2 所 示 。 该 矩阵 大 小 为 4 x 4， 颜 色 通道 数 为 3。 





3 个 颜色 通道 


EE 
al 





高 度 : 4 个 和 
(像素 ) 





(EE. 4 个 单元 
(像素 ) 

















图 4-2 ”彩色 图 像 示 意图 








现在 再 来 看 之 前 的 黑白 图 像 (5 x 5 阶 和 矩阵 )， 并 假设 令 另 一 个 更 低 阶 的 矩阵 【如 3 x 3 大 小 ) 
从 上 到 下 、 从 左 到 右 在 其 上 游 劲 。 该 低 阶 矩 阵 示意 图 如 图 4-3 所 示 。 


101 
0 1 0 
1 0 1 


图 4-3 IRIZ 
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这 个 游 动 的 和 矩阵 被 称 为 卷 积 核 或 特征 检测 器 。 当 卷 积 核 在 输入 矩阵 ( 或 输入 图 像 ) 上 游 动 时 ， 
会 计算 核 值 与 当前 块 的 张 量 积 。 得 出 的 结果 组 成 一 个 新 的 和 矩阵， 称 为 卷 积 矩 阵 。 

图 4-4 演 示 了 卷 积 的 过 程 。 被 卷 积 特征 (得 出 的 3 x 3 阶 和 矩阵 ) 是 由 卷 积 操作 生成 的 ， 也 就 是 
令 卷 积 核 C3 x SBME ) 在 输入 图 像 (5 x SIEM ) 上 游 动 。 




















被 卷 积 特征 

















图 4-4 ”输入 图 像 、 卷 积 核 和 被 卷 积 特征 


4.2 CNN 架构 


以 前 面 展示 的 5 x $ 阶 输入 矩阵 为 例 ， 一 个 CNN 包 含 一 个 含有 25 个 神经 元 (5 x 5225) 的 输 
入 层 ， 其 作用 为 获取 与 每 个 像素 对 应 的 输入 值 ， 并 将 其 传输 到 下 一 个 隐藏 层 。 


在 多 层 网 络 中 ,输入 层 每 个 神经 元 的 输出 都 与 隐藏 层 的 所 有 神经 元 相连 接 ( 全 相连 层 )。 
在 CNN 网 络 中 ， 定 义 卷 积 层 的 连接 方式 和 之 前 的 网 络 大 不 相同 。 


你 可 能 会 猜 到 ， 卷 积 层 是 CNN 网 络 层 中 最 主要 的 一 种 。 在 CNN 中 ， 使 用 一 个 或 多 个 卷 积 层 
是 不 可 避免 的 。 


在 卷 积 层 中 ， 每 个 神经 元 与 输入 区 的 某 个 特定 区 域 相 连 ， 这 种 区 域 称 为 感受 野 。 


例如 ， 使 用 一 个 3 x 3 的 卷 积 核 ， 每 个 神经 元 会 有 一 个 偏差 和 9 = 3 x 3 个 权重 ， 与 一 个 感受 野 
连接 。 当 然 , 为 有 效 识别 图 像 ， 我 们 需要 将 不 同 的 卷 积 核 加 载 到 同一 个 感受 野 上 ， 因 为 每 个 不 同 
的 卷 积 核 会 识别 不 同 特征 对 应 的 图 像 。 

用 于 识别 同一 特征 的 一 组 神经 元 定义 了 一 个 特征 图 。 

图 4-5 展 示 了 一 个 工作 中 的 CNN 架 构 。 输 入 图 像 大 小 为 28 x 28 像 素 , 用 一 个 卷 积 层 对 其 进行 卷 
TA, 其 中 的 特征 图 含有 32 个 大 小 为 28 x 28 的 特征 。 该 图 还 显示 了 一 个 3 x3 大 小 的 感受 野 和 卷 积 核 。 
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输入 图 像 28 x 28 像 素 卷 积 层 (28 x 28 x 32) 


含有 32 个 特征 
的 特征 图 





mes 卷 积 核 3x3) 一 一 


含有 9 个 权重 的 
单 神经 元 


图 4-5 工作 中 的 CNN 
一 个 CNN 可 能 包含 几 个 级 联 的 卷 积 层 。 每 个 卷 积 层 的 输出 都 是 一 组 特征 图 ( 每 个 特征 图 是 由 E 
同一 个 卷 积 核 生 成 的 )， 且 所 有 这 些 矩 阵 一 起 定义 了 一 个 新 的 输入 ， 供 下 一 个 网 络 层 使 用 。 


通常 ，CNN 中 每 个 达到 激活 闷 值 的 神经 元 被 激活 ， 产 生 一 个 与 输入 成 比例 的 、 无 界 的 输出 。 
一 般 使 用 的 激活 函数 为 第 3 章 介绍 过 的 ReLU 函 数 。 

另外 ，CNN 会 使 用 池 化 层 , 该 层 紧 随 卷 积 层 之 后 。 池 化 层 将 卷 积 区 域 分 成 若干 个 子 区 域 , 并 
选择 一 个 代表 值 ( 采用 最 大 池 化 或 平均 池 化 的 方法 )， 以 减少 后 面 层 的 计算 时 间 ， 增 加 不 同 空间 
位 置 特征 的 鲁 棱 性 。 


卷 积 网 络 的 最 后 一 个 隐藏 层 是 全 连接 的 ， 激 活 函数 为 softmax 函 数 ， 结 果 输 送 至 输出 层 。 









































一 个 CNN 模型 一 一 LeNet 
卷 积 和 池 化 层 是 LeNet 族 模型 的 核心 。 该 模型 是 一 种 多 层 前 馈 网 络 , 专门 用 于 视觉 模式 识别 。 
这 种 模型 包含 的 细节 非常 多 。 图 4-6 展 示 了 LeNet 网 络 的 图 形 框架 。 











卷 积 核 卷 积 空间 池 化 空间 池 化 





输入 图 像 特征 图 











层 0…… 1 2 3 4 5 6 





图 4-6 ”LeNet 网 络 
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在 LeNet 模 型 中 ， 较 低 的 层 由 卷 积 层 和 池 化 层 交 替 组 成 ， 后 面 的 层 是 全 连接 的 ， 相 当 于 一 个 
传统 的 前 馈 神经 网 络 ( 全 连接 + softmax 层 )。 


一 个 全 连接 层 的 输入 是 该 层 之 前 所 有 特征 图 组 成 的 集合 。 


从 TensorFlow 实 现 的 角度 看 ， 这 表示 较 低 的 层 需 要 处 理 四 维 张 量 。 然 后 这 些 张 量 会 被 展开 成 
为 二 维 矩 阵 ， 以 兼容 前 馈 网 络 的 实现 。 








@ 若 要 了 解 LeNet 族 模型 的 基本 信息 ， 参 见 http://yann.lecun.com/exdb/lenet/index.html。 


4.3 构建 你 的 第 一 个 CNN 

本 节 将 学 习 如 何 构建 一 个 CNN， 为 MNIST 数 据 集中 的 图 像 分 类 。 在 前 面 的 章节 中 我 们 了 解 
到 ， 一 个 简单 的 softmax 模 型 在 MNIST 手 写 数字 数据 集 上 可 以 实现 约 92% 的 分 类 准确 率 。 

现在 要 实现 的 CNN 模 型 分 类 准确 率 可 以 达到 99%。 

图 4-7 展 示 了 数据 在 前 两 个 卷 积 层 游 动 的 方式 。 第 一 个 卷 积 层 使 用 卷 积 核 权重 处 理 输入 图 像 ， 


其 结果 为 32 个 新 的 图 像 , 每 个 图 像 对 应 于 卷 积 层 内 的 一 个 卷 积 核 。 这 些 图 像 还 会 通过 池 化 操作 被 
下 采样 ， 从 而 使 图 像 分 辨 率 从 28 x 28 降 到 14 x 14。 


这 32 个 变 小 了 的 图 像 会 继续 被 第 二 个 卷 积 层 处 理 。 我 们 需要 用 卷 积 核 权重 处 理 这 32 个 特 
征 ， 同 时 ,该 层 的 每 个 输出 通道 也 需要 得 到 处 理 。 这 些 图 像 再 次 被 池 化 操作 下 采样 ， 图 像 分 辩 率 
从 14 x 14 降 到 7 x 7。 该 卷 积 层 的 特征 总 数 为 64。 































32 个 特征 64 个 特征 。 ”64 个 特征 
"a E Ey €. "e N 
输入 图 像 G* a 最 大池 o 
(28 x 28) convl pooll Gx3,s=1) conv22*%%8=2) pool2 
(28 x 28 x 32) (14 x 14 x 32)) (14 x 14 x 64) (7* 7x64) 
第 一 个 卷 积 层 第 二 个 卷 积 层 











4-7 前 两 个 卷 积 层 中 的 数据 流 


如 图 4-8 所 示 ， 这 64 个 结果 图 像 被 第 三 个 (3 x 3) 卷 积 层 再 次 进行 滤波 。 在 这 一 层 中 ， 我 们 
不 再 进行 池 化 操作 。 该 卷 积 层 的 输出 为 128 个 7 x 7 像素 的 图 像 。 随 后 ， 这 些 图 像 被 展开 为 一 个 长 
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度 为 4x4x 128 的 向 量 ， 并 会 被 作为 输入 ， 传 送 到 含有 128 个 神经 元 (或 元 素 ) 的 全 连接 层 。 


上 面 的 全 连接 层 的 输出 又 会 被 馈 给 另 一 个 含有 10 个 神经 元 的 全 连接 层 。 该 层 中 的 每 个 神经 元 
对 应 一 个 类 ， 用 于 识别 图 像 属于 哪个 类 ， 即 图 像 上 显示 的 是 哪个 数字 。 














128 个 特征 










(7 x7x128) 


第 三 个 卷 积 层 

















图 4-8 ”最 后 三 个 卷 积 层 中 的 数据 流 


最 初 , 卷 积 核 是 随机 选取 的 。 输 入 图 像 的 预测 分 类 和 实际 分 类 之 间 的 误差 是 由 所 谓 的 代价 函 
数 计算 的 , 它 可 以 泛 化 我 们 由 训练 数据 生成 的 网 络 。 然 后 ， 优 化 函数 自动 将 误差 反 向 传播 , 使 其 
通过 卷 积 网 路 并 更 新 卷 积 核 权重 ， 以 减 小 分 类 误差 。 


这 种 操作 会 重复 迭代 数 千 次 ， 直 到 分 类 误差 足够 小 为 止 。 
现在 详细 讲解 如 何 为 我 们 的 第 一 个 CNN 编 写 代 码 。 
首先 ， 导 入 实现 网 络 所 需 的 TensoFlow 库 : 








import tensorflow as tf 
import numpy as np 
from tensorflow.examples.tutorials.mnist import input_data 


接着 ， 设 置 以 下 参数 。 两 个 参数 分 别 表示 训练 阶段 (128 ) 和 测试 阶段 (256 ) 的 样本 数量 : 


batch size = 128 
test_size = 256 


然后 定义 下 面 的 参数 。 其 值 为 28 ， 因 为 MNIST 图 像 的 宽 和 高 为 28 像 素 : 

img_size = 28 

考虑 到 类 的 数量 ， 数 值 10 表 示 我 们 为 10 个 数字 中 的 每 一 个 都 定义 了 一 个 类 : 

num_class = 10 

为 输入 图 像 定义 占 位 符 变 量 x。 该 张 量 的 数据 类 型 被 设置 为 float32， 形 状 设 置 为 [None， 
img_size，img_size，1]。 此 处 None 表 示 该 张 量 可 以 保存 任意 数量 的 图 像 : 
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X = tf.placeholder("float", [None, img size, img size, 1]) 
然后 设置 另 一 个 占 位 符 变 量 Y， 表 示 每 个 输入 到 占 位 符 变 量 x 中 的 图 像 对 应 的 真实 类 标签 。 


该 占 位 符 变 量 的 形状 为 INone，num_classes]l ， 代 表 该 张 量 可 以 保存 任意 数量 的 标签 ， 且 
每 个 标签 为 长 度 num_classes 的 一 个 向 量 。 此 处 num_classes 取 10: 














Y = tf.placeholder("float", [None, num classes]) 
然后 导入 mnist 数 据 ， 数 据 会 被 复制 到 aata 文 件 夹 : 
mnist = input_data.read_data_sets("data/") 


建立 数据 集 ， 对 网 络 进行 训练 (trx, try) 和 测试 (tex，teY): 





trX, trY, teX, teY = mnist.train.images, \ 
mnist.train.labels, \ 
mnist.test.images, \ 
mnist.test.labels 


trx 和 trY 图 像 集 必须 根据 输入 形状 进行 变形 : 


trX 
tex 


trX.reshape( img size, img size, 1) 


teX.reshape( 
现在 ， 可 以 开始 定义 网 络 权重 了 。 
init_weights 函 数 能 构建 给 定形 状 的 新 变量 ， 并 初始 化 网 络 权重 为 随机 值 : 


= =; 
= -1, img_size, img_size, 1) 


def init_weights(shape): 
return tf.Variable(tf.random_normal (shape, stddev=0.01) ) 


第 一 个 卷 积 层 中 的 每 个 神经 元 均 由 输入 张 量 的 一 个 小 子 集 卷 积 而 来 ， 其 维度 为 3 x 3 x 1。 数 
值 32 是 这 一 层 的 特征 图 数量 。 因 此 ， 可 以 将 权重 w 定 义 如 下 : 


w = init_weights([3, 3, 1, 32]) 


输入 的 数量 上 升 至 32, 也 就 是 说 , 第 二 个 卷 积 层 中 的 每 个 神经 元 均 由 第 一 个 卷 积 层 中 3 x 3 x 
32 个 神经 元 卷 积 而 来 。 权 重 w2 定 义 如 下 : 


w2 = init weights([3, 3, 32, 64]) 

数值 64 代表 该 层 获 得 的 输出 特征 数量 。 

第 三 个 卷 积 层 由 前 一 层 的 3 x 3 x 64 个 神经 元 卷 积 而 来 ， 其 输出 特征 数量 为 128 : 
w3 = init weights([3, 3, 64, 128]) 

第 四 层 是 一 个 全 连接 层 。 该 层 接 收 128 x 4 x 4 的 输入 ， 输 出 数量 为 625: 


w4 = init_weights([128 * 4 * 4, 625]) 
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输出 层 接收 625 个 输入 ， 其 输出 为 类 的 数量 : 


wo = init_weights([625, num_classes] ) 


Ax, AEH A cE HE UI A 


台 化 ， 它 们 只 定义 于 TensorFlow 图 中 : 


p. keep conv = tf.placeholder("float") 
p. keep hidden - tf.placeholder("float") 


下 面 可 以 开始 定义 网 络 模型 。 根 据 前 面 对 网 络 权重 的 定义 ， 模 型 的 实质 是 一 个 函数 。 
该 函数 接收 的 输入 为 x 张 量 、 权 重 张 量 ， 以 及 卷 积 层 和 全 连接 层 的 dropout 参 数 : 


def model(X, w, w2, w3, w4, 




















W O, p keep conv, p keep hidden): 





PRA Enn. conv2d O 负责 执行 TensorFlow 的 卷 积 操 作 。 注 意 ， 对 每 个 维度 ， 其 步 长 均 设 为 1。 


实际 上 ， 第 一 维和 最 后 一 维 的 步 长 一 定 总 为 1， 因 为 第 一 维 代 表 图 像 数 量 ， 最 后 一 维 代表 输 
和 人 通道。 参数 padqqing 被 设置 为 SAME， 意 为 输入 图 像 边 界 被 0 填充 ， 以 保证 输出 大 小 一 致 : 




















convl = tf.nn.conv2d(X, w, s 


然后 ， 将 conv1 层 传递 给 一 个 上 











trides=[1, 1, 1, 1], padding='SAME' ) 


elu 层 。 这 会 计算 每 个 输入 像素 x 的 max (x, 0) 函数 ， 为 公式 





增添 一 些 非 线性 ， 使 我 们 能 够 学 习 出 更 加 复杂 的 函数 ， 





convi = tf.nn.relu(conv1) 





接着 ,使 用 tf .nn .max_pool 操 作 符 对 得 出 的 结果 层 进行 池 化 操作 : 


convi = tf.nn.max_pool(convl, ksize-[1, 2, 2, 1] 
r Stbrdes zl, 2.2) Xl; 
padding = 'SAME') 


这 是 一 个 2 x 2 最 大 池 化 操作 ， 意 为 使 用 2 x 2 的 窗 ， 选 择 每 个 窗 中 的 最 大 值 。 然 后 移动 两 个 像 


ai 


进入 下 一 个 窗 继续 该 操作 。 








为 减 小 过 拟 合 , 使 用 tf nn. dropout () 函数 , 将 conv1 层 和 p_keep_conv 概 率 值 传 人 其 中 : 


convl = tf.nn.dropout(conv1, 


可 以 看 到 ， 接 下 来 的 两 个 卷 积 


conv2 = tf.nn.conv2d(conv1, 
strides= 
padding 
conv2 = tf.nn.relu(conv2) 
conv2 = tf.nn.max pool(conv2, 
strides= 
padding-' 
conv2 f.nn.dropout (conv2, 








oul 
ct ct 


conv3 f .nn.conv2d (conv2, 


p_keep_conv) 


Zconv2flconv3, EXA fllconvi fln] : 


w2, 
[1 5. de odor doa: 
='SAME' ) 


ksize=[1, 2, 2, 1], 


[45 2425 NG 
SAME') 

p. keep conv) 
w3, 
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Strides=([1y 1, 1,1]; 
padding-'SAME') 


conv3 - tf.nn.relu(conv3) 


然后 ， 向 网 络 中 添加 两 个 全 连接 层 FC_layer。 第 一 个 FC_layez 的 输入 为 前 面 一 个 卷 积 层 : 





FC layer = tf.nn.max pool(conv3, ksize-[1, 2, 2, 1], 
strides-[1, 2, 2, 1], 
padding-'SAME') 
FC layer = tf.reshape(FC layer,[-1,w4.get shape().as list()[011]) 


青 次 使 用 dropout MA, Jibi : 




















FC_layer = tf.nn.dropout (FC_layer, p_keep_conv) 


输出 层 接收 Fc_layer 作 为 输入 ， 并 接收 权重 张 量 w4。 同 时 ， 分 别 应 用 r*elu 和 aqropout 
操作 符 : 


output_layer 
output_layer 


变量 result 是 一 个 长 度 为 10 的 向 量 ， 用 于 确定 输入 图 像 属于 10 个 类 中 的 哪 一 个 








tf.nn.relu(tf.matmul(FC layer, w4)) 
tf.nn.dropout(output layer, p keep hidden) 




















result = tf.matmul(output layer, w o) 
return result 


ix —4) 2S di PEH 3e SCR EO TP TR BEI EEE PRÉC, HANE UAR RUNS 
He PET, MAREO, FAC, DLAC EY Al ty i Dad 928 go] VIUA SUR, 
使 其 尽量 接近 0。 


TensorFlow A EYES Az UA) PAL. 注意 , 该 函数 内 已 计算 softmax, 所 以 必须 直接 使 用 py_x 
的 输出 : 


py_x = model(X, w, w2, w3, w4, w_o, p keep conv, p keep hidden) 
Y = tf.nn.softmax cross entropy with logits(logits-py x, labels-Y) 


现在 , RAN CAA RTE E BUE XT ACU, MARAR, O APREA EB Th 
立 图 像 上 的 表现 。 HE BESS SITES BIG, Be BET DOUG, 简单 地 为 所 
有 分 类 好 的 图 像 的 交叉 炉 取 均值 : 



























































cost = tf.reduce mean(Y ) 

为 最 小 化 上 述 代 价 函 数 ,我 们 需要 定义 一 个 优化 器 。 在 这 个 例子 中 , 采用 已 实现 的 RMSProp 
optimizer 国 数 。 该 函数 为 梯度 下 降 的 一 个 高 级 形式 。 

RMSPropoptimizer 了 困 数 是 RMSProp 算 法 的 实现 。 该 算法 是 一 个 尚未 发 表 的 自 适应 学 习 率 方 
法 ， 由 杰 弗 里 . 泣 顿 提出 ， 可 以 在 他 的 coursera 课 程 的 Lecture 6e 中 找到 。 
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QD Me VA f https://www.coursera.org/learn/neural-networks4X, $] A p Y. - 3E 8a PRAE, 








RMSPropOptimiz er 函数 用 指数 级 衰减 的 梯度 平 方 均值 去 除 学 习 率 。 辛 顿 建议 将 衰减 参数 设 
置 为 0.9， 而 比较 好 的 学 习 率 默认 值 为 0.001: 
optimizer = tf.train.RMSPropOptimizer(0.001, 0.9).minimize(cost) 
本 质 上 ， 常见 的 梯度 下 降 算 法 存在 一 个 问题 .学习 率 必须 具有 1/T 的 规模 才能 收 钱 。 此 处 的 
IT 为 迭代 次 数 。RMSProp 弥 补 了 这 一 缺陷 ， 因 为 它 会 自动 调整 步 长 ， 使 其 与 梯度 具有 相同 规模 。 
随 着 平均 梯度 变 小 ，SGD 的 更 新 系数 会 变 大 以 进行 弥补 。 
可 以 在 http://www.cs.toronto.edu/%7Etijmen/csc321/slides/lecture_slides lec6.pdf 找 
到 关于 该 算法 的 一 份 比较 有 趣 的 参考 资料 。 














最 后 定义 predict_op， 它 是 模型 的 几 个 输出 维度 中 最 大 值 的 索引 : 

predict_op = tf.argmax(py_x, 1) 

注意 ， 此 时 还 没有 进行 优化 操作 。 程序 还 没有 进行 任何 计算 , 我们 只 是 将 优化 需 对 象 添加 到 
TensorFlow 图 中 以 便 随后 执行 。 

现在 开始 定义 网 络 的 运行 会 话 : 训练 集 含有 55 000 个 图 像 ， 所 以 使 用 所 有 这 些 图 像 计 算 模型 
的 梯度 会 耗 时 很 长 。 因 此 ,在 优化 器 的 每 轮 迭 代 中 ,我 们 只 使 用 这 些 图 像 中 的 一 小 批 。 如 果 计 算 
机 运行 过 程 中 由 于 内 存 不 足 而 死机 ,或 运行 很 慢 , 你 可 以 试 着 降低 每 一 批 的 图 像 数 量 , 但 同时 可 
能 需要 增加 迭代 次 数 。 

现在 ， 可 以 定义 TensorFlow 会 话 了 : 

















with tf.Session() as sess: 
sess.run(tf£.global_variables_initializer() ) 
for i in range(100): 


取 一 批 训练 样本 ， 此 时 training_batch 张 量 包 含 图 像 的 一 个 子 





m 
E 
2 
emp 
x 
EM 
gx 


training batch = zip(range(0, len(trX), batch size), 
range (batch, size," 
len(trX)+1,\ 
batch size)) 


IDE 


在 图 中 取 合 适 的 占 位 符 变量 名 , 将 这 批 数据 馈 给 feed_aqaict。 现 在 , 用 这 批 训练 数据 运行 优 
化 器 ，TensorFlow 便 会 将 数据 的 值 传人 占 位 符 变 量 ， 并 启动 优化 器 : 


for start, end in training_batch: 
sess.run(optimizer, feed_dict={X: trX[start:end],\ 
Y: trYy[start:end],\ 
p. keep conv: 0.8,\ 
p. keep hidden: 0.5}) 
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同时 ， 我 们 获得 了 可 以 滚动 变化 的 一 批 样 本 : 


test indices = np.arange(len(teX)) 
np.random.shuffle(test indices) 
test indices = test indices[0:test size] 


WERE, LARUE ARIE EET : 


print(i, np.mean(np.argmax(teY[test_indices], axis=1) ==\ 
sess.run\ 
(predict_op, \ 
feed dict-(X: teX[test indices], 
Y: teY[test indices], 
p. keep conv: 1.0,\ 
p keep hidden: 1.0)))) 


训练 一 个 网 络 可 能 需要 耗费 数 小 时 , 具体 的 时 间 取 决 于 使 用 的 计算 资源 数量 。 在 我 的 机 器 上 ， 
模型 的 结果 如 下 : 


Successfully downloaded train-images-idx3-ubyte.gz 9912422 bytes. 

Successfully extracted to train-images-idx3-ubyte.mnist 9912422 bytes. 

Loading ata/train-images-idx3-ubyte.mnist 

Successfully downloaded train-labels-idxl-ubyte.gz 28881 bytes. 

Successfully extracted to train-labels-idxl-ubyte.mnist 28881 bytes. 

Loading ata/train-labels-idxl-ubyte.mnist 

Successfully downloaded t10k-images-idx3-ubyte.gz 1648877 bytes. 

Successfully extracted to t10k-images-idx3-ubyte.mnist 1648877 bytes. 

Loading ata/ti0k-images-idx3-ubyte.mnist 

Successfully downloaded t10k-labels-idxl-ubyte.gz 4542 bytes. 

Successfully extracted to t10k-labels-idxl-ubyte.mnist 4542 bytes. 

Loading ata/ti0k-labels-idxi-ubyte.mnist 

0, 0.95703125) 

.98046875) 

.9921875) 

.99609375) 

.99609375) 

.98828125) 

.99609375) 
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- 99609375 
- 98828125 
, 0.98046875 
0, 0.99609375) 
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90, 1.0) 

91, 0.9921875) 
92, 0.9921875) 
93, 0.99609375) 
94, 1.0) 

95, 0.98828125) 
96, 0.98828125) 
97, 0.99609375) 
98, 1.0) 

99, 0.99609375) 


在 10 000 轮 迄 代 后 ， 模 型 准确 率 达 到 了 约 99%。 不错 ! 
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手写 分 类 器 源 代码 
为 方便 理解 ， 现 在 给 出 前 面 讨论 的 CNN 的 完整 源 代码 : 


import tensorflow as tf 
import numpy as np 
from tensorflow.examples.tutorials.mnist import input_data 


batch size = 128 
test_size = 256 
img_size = 28 

num_classes = 10 


def init weights (shape): 
return tf.Variable(tf.random normal (shape, stddev=0.01) ) 


def model (X, w, w2, w3, w4, w_o, p keep conv, p keep hidden): 
convi = tf.nn.conv2d(X, w,\ 

gtridese[l, 1, 1, 1].N 

padding-'SAME') 








convi a = tf.nn.relu(conv1) 

convi = tf.nn.max pool(convl1 a, ksize=[1, 2, 2, 1],\ 
strides= (iy 2, 2, Les 
padding='SAME' ) 

convi = tf.nn.dropout (convl, p keep conv) 





conv2 = tf.nn.conv2d(convi, w2,\ 

strides=[1, 1, 1, 1],\ 
padding='SAME' ) 

conv2_a = tf.nn.relu(conv2) 

conv2 = tf.nn.max pool(conv2 a, ksize=[1, 2, 2, 1],\ 
strides=[1, 2, 2, 1],\ 
padding='SAME' ) 

conv2 = tf.nn.dropout(conv2, p keep conv) 





conv3=tf.nn.conv2d(conv2, w3,\ 
strides=[1, 1, 1, 1],\ 
padding='SAME' ) 


conv3 = tf.nn.relu(conv3) 
FC layer = tf.nn.max pool(conv3, ksize-[1, 2, 2, 1],\ 
strides-[1, 2, 2, 1],\ 


padding-'SAME') 


FC layer 
FC layer 


tf.reshape(FC layer, [-1, w4.get shape().as list()[0]1) 
tf.nn.dropout(FC layer, p. keep conv) 


output layer - tf.nn.relu(tf.matmul(FC layer, w4)) 
output, layer tf.nn.dropout(output layer, p keep hidden) 


result - tf.matmul(output layer, w o) 
return result 
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mnist = input data.read data sets("MNIST data", one hot-True) 
trX, trY, teX, teY = mnist.train.images, \ 
mnist.train.labels, \ 
mnist.test.images, \ 
mnist.test.labels 





trX = trX.reshape(-1, img size, img size, 1) # 28x28x1 input img 
teX - teX.reshape(-1, img size, img size, 1) # 28x28x1 input img 
X - tf.placeholder("float", [None, img size, img size, 1]) 

Y - tf.placeholder("float", [None, num classes]) 

w - init weights([3, 3, 1, 32]) 

w2 - init weights([3, 3, 32, 64]) 

w3 - init weights([3, 3, 64, 128]) 

w4 - init weights([128 * 4 * 4, 625]) 

w o - init weights([625, num classes]) 

p. keep conv - tf.placeholder("float") 

p. keep hidden - tf.placeholder("float") 

py. x = model(X, w, w2, w3, w4, w O, p keep conv, p keep hidden) 

Y - tf.nn.softmax cross entropy with logits(logits-py x, labels-Y) 








cost - tf.reduce mean(Y ) 
optimizer - tf.train.RMSPropOptimizer(0.001, 0.9).minimize(cost) 
predict op = tf.argmax(py x, 1) 


with tf.Session() as sess: 
tf.initialize all variables().run() 


for i in range(100): 
training batch = \ 
zip(range(0, len(trxX),\ 
batch size), 
range (batch size, 
len(trX)+1,\ 
batch_size) ) 


for start, end in training_batch: 
sess.run(optimizer , feed dict-(X: trX[start:end], 
Y: trY[start:end], 
p. keep conv: 0.8,\ 
p. keep hidden: 0.5)) 


\ 
\ 


test indices = np.arange(len(teX)) # Get A Test Batch 
np.random.shuffle(test indices) 
test indices = test indices[0:test size] 


print(i, np.mean(np.argmax(teY[test indices], axis=1) == \ 
sess.run\ 
(predict_op, \ 
feed dict-(X: teX[test indices], 
Y: teY[test indices], 
p. keep conv: 1.0,\ 
p keep hidden: 1.0)))) 


\ 
\ 
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4.4 CNN 表情 识别 


深度 学 习 中 , 需要 解决 的 一 个 最 困难 的 问题 并 不 是 有 关 神 经 网 络 的 问题 ， 而 是 如 何 获取 具有 
正确 格式 的 正确 数据 。Kaggle 平 台 (https:/www.kaggle.com/， 见 图 4-9 ) 可 以 帮助 我 们 找到 新 的 
研究 问题 ， 获 取 新 的 数据 集 ， 非 常 有 价值 。 


Kaggle 平 台 创 建 于 2010 年 ， 是 一 个 预测 建 模 及 分 析 的 比赛 平台 。 在 这 个 平台 上 ,公司 及 其 研 
究 人 员 发 布 数据 , 世界 各 地 的 统计 学 家 和 数据 挖掘 师 参 与 比赛 ,为 这 些 数据 建立 最 佳 预测 并 分 析 
模型 。 

本 节 将 展示 如 何 建立 一 个 CNN 模 型 ， 以 检测 面部 图 像 的 表情 。 可 以 从 https://inclass.kaggle. 
com/c/facial-keypoints-detector/data 下 载 本 例 中 的 训练 和 测试 数据 。 你 可 以 使 用 自己 的 Facebook、 




















谷歌 或 雅虎 账号 登录 并 下 载 数 据 ， 或 者 你 可 以 创建 新 账户 进行 下 载 。 














Active All Entered All Categories ~ Q Search competitions 
N, The Nature Conservancy Fisheries Monitoring $150,000 
VW — Featured "ew 
Dstl Satellite Imagery Feature Detection $100,000 
[dsti] a 
Featured - 2 mo 


Two Sigma Financial Modeling Challenge $100,000 
1,010 tea 


A Outbrain Click Prediction $25,000 


图 4-9 Kaggle 比 赛 页 面 


训练 集 包 含 3761 张 大 小 为 48 x 48 像 素 的 灰 度 图 像 ， 和 一 个 有 3761 个 标签 的 集合 , 集合 中 共有 
7 种 元 素 。 


每 种 元 素 表示 一 种 表情 ，0= 生 气 、1= 反 感 、2= 丽 惧 、3-= 高 兴 、4= 难 过 、5= 惊 喜 、6= 无 表情 。 


在 经 典 的 Kaggle 比 赛 中 , 测试 集中 获取 的 标签 集合 必须 提交 到 平台 上 进行 评价 。 在 这 个 例子 
中 ， 我 们 会 从 训练 集训 练 一 个 神经 网 络 ， 随 后 用 一 张 图 片 评价 训练 出 的 模型 。 


开始 构建 CNN 之 前 ， 先 实现 一 个 简单 的 程序 查看 下 载 的 数据 。 
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使 用 以 下 代码 导入 需要 的 库 : 





import numpy as np 
from matplotlib import pyplot as plt 
import EmotionDetectorUtils 


注意 ， 此 处 有 一 个 EmotionDetectorUtils 依 赖 ,该 依赖 要 使 用 pandas 包 才能 正常 运行 。 
现在 ， 在 Ubuntu 的 终端 里 输入 如 下 命令 ， 安 装 pangas 包 : 





sudo apt-get update 

sudo apt-get install python-pip 
sudo pip install numpy 

sudo pip install pandas 

sudo apt-get install python-pandas 


read dataPAZI GEAR P RMN AGHA A BE ARH T Emotion DetectorUtils 
库 中 ， 你 可 以 从 本 书 的 代码 仓库 下 载 此 库 : 


FLAGS = tf.flags.FLAGS 
tf.flags.DEFINE string("data dir", "EmotionDetector/", "Path to data files") 





TE 








train images, train labels, valid images, valid labels, test images - 
EmotionDetectorUtils.read data(FLAGS.data dir) 


然后 ， 输 出 训练 图 像 集合 和 测试 集 的 形状 : 








print "train images shape = ",train_images.shape 
print "test labels shape = ",test_images.shape 


显示 训练 集 的 第 一 个 图 像 及 其 正确 标签 : 


image 0 = train images[0] 

label 0 - train labels[0] 

print "image 0 shape = ",image_0.shape 
print "label set - ",label 0 

image 0 - np.resize(image 0,(48,48)) 





plt.imshow(image 0, cmap-'Greys r') 
plt.show() 


训练 集 共 含有 3761 张 大 小 为 48 x 48 像 素 的 灰 度 图 像 : 
train images shape = (3,761, 48, 48, 1) 
训练 集 还 包含 3761 个 类 标签 ， 每 个 类 含有 7 种 元 素 : 
train labels shape = (3,761, 7) 

测试 集 由 1312 张 大 小 为 48 x 48 的 灰 度 图 像 组 成 : 


test labels shape = (1,312, 48, 48, 1) 
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每 个 单独 的 图 像 形 状 如 下 : 


image_0 shape = (48, 48, 1) 
一 个 图 像 的 标签 集合 如 下 所 示 : 
label set = [ 0. 0. 0. 1. 0. 0. O.] 


该 图 对 应 的 是 “高 兴 ” 的 表情 ， 用 matplot 绘 图 工具 可 视 化 为 图 4-10。 
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图 4-10 ”表情 检测 数据 集中 的 第 一 个 图 像 
下 面 开始 研究 本 例 中 的 CNN 架 构 。 图 4-11 展 示 了 将 要 实现 的 CNN 中 的 数据 流动 情况 


32 个 特征 
gu e$ S M. A) 
ey e. n EJ 卷 积 核 Ki 


(2*2,8=2) 
(48 x 48) onv] pooll | (3x3,s=1) h coy oe mE ze 
i es 32) M EAR 32) 





h pool. 
(24x 24x om (12 x 12 x ^ 


第 一 个 卷 积 层 第 二 个 卷 积 层 











图 4-11 本 例 CNN 的 前 两 个 卷 积 层 


该 网 络 含 有 两 个 卷 积 层 、 两 个 全 连接 层 ， 以 及 最 后 的 一 个 softmax 分 类 层 。 输 入 图 像 (48 个 
像素 ) 在 第 一 个 卷 积 层 被 5 x 5 的 卷 积 核 卷 积 。 卷 积 的 结果 为 32 个 特征 ， 每 个 特征 由 对 应 的 卷 积 核 
产生 。 图像 还 经 最 大 池 化 操作 被 下 采样 ,将 大 小 从 48 x 48 像 素 减 小 到 24 x 24 像 素 。 这 32 个 变 小 的 
图 被 第 二 个 卷 积 层 处 理 ， 该 层 的 结果 为 64 个 新 的 特征 ( 见 图 4-12 )。 结 果 图 像 经 由 池 化 操作 被 再 
一 次 下 采样 ， 变 为 12 x 12 像 素 。 
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第 二 个 池 化 层 的 输出 由 12 x 12 像 素 的 64 个 图 像 组 成 。 然 后 这 些 图 像 被 展开 为 一 个 一 维 向 量 ， 
长 度 为 12 x 12 x 64 = 9216。 这 个 向 量 被 作为 输入 ,传人 含有 256 个 神经 元 的 全 连接 层 。 而 这 一 全 
连接 层 的 输出 又 被 馈 给 男 一 个 含有 10 个 神经 元 的 全 连接 层 , 其 中 每 个 神经 元 代表 一 个 类 , 用 以 确 
定 图 像 所属 的 类 别 ， 即 解码 图 像 中 描绘 的 表情 。 











(a)}— 





Reshape 
变形 12 x 12 x 64 的 张 量 9» 9216 x 1 的 向 量 256 个 神经 元 10 个 数字 

















图 4-12 ”本 例 中 的 CNN 的 最 后 两 层 
接 下 来 定义 weights 和 bias。 下 面 的 数据 结构 定义 了 网 络 的 权重 , 并 总 结 了 前 面 描述 的 内 容 : 


weights = { 
'wcl': weight variable([5, 5, 1, 32], name-"W conv1"), 
'wc2': weight variable([3, 3, 32, 64],name-"W conv2"), 
'wfl': weight, variable 
(L(IMAGE SIZE / 4) * (IMAGE SIZE / 4) * 64, 256],name-"W fci"), 
'wf2': weight variable([256, NUM LABELS], name-"W fc2") 





























了 次 提醒 ， 本 例 中 的 卷 积 核 是 随机 选取 的 ， 所 以 分 类 结果 也 是 随机 的 : 








def weight_variable(shape, stddev=0.02, name=None): 
initial = tf.truncated_normal (shape, stddev=stddev) 
if name is None: 
return tf.Variable(initial) 
else: 
return tf.get variable(name, initializer-initial) 


类 似 地 ， 定 义 bias_variable: 


biases = { 
'bcl': bias variable 


([32], name="b_conv1"), 

'bc2': bias variable([6 
([2 
(t 


2 

4], name-"b conv2"), 

56], name-"h fol"); 

NUM LABELS], name-"b fc2") 


'bf1': bias variable 
'Df2': bias variable 
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} 
def bias variable(shape, name=None) : 
initial - tf.constant(0.0, shape-shape) 
if name is None: 
return tf.Variable(initial) 
else: 
return tf.get variable(name, initializer-initial) 


此 外 ， 还 需 定义 一 个 优化 器 ， 利 用 求 导 的 链 式 法 则 将 网 络 的 错误 反 向 传播 ， 使 其 通过 CNN， 
并 同时 更 新 卷 积 核 权 重 以 减 小 分 类 错误 。 输 入 图 像 的 预测 值 和 真实 值 之 间 的 错误 由 1oss 函 数 度 
Ht, 该 函数 的 输入 为 pred 模 型 的 输出 值 和 1abe1 的 真实 值 : 


def loss(pred, label): 
cross_entropy_loss=\ 
tf.nn.softmax cross entropy with logits(pred, label) 
cross, entropy loss-tf.reduce mean(cross, entropy loss) 
reg losses - tf.add n(tf.get collection("losses")) 
return cross entropy loss + REGULARIZATION * reg losses 



































im HH 2 ZS softmax K SUM PRG, Hitf.nn.softmax cross entropy. with logits 
(pred, label) PATA XA cross entropy loss (实际 上 这 两 个 操作 是 一 起 进行 的 ， 在 
数学 上 更 为 精确 )。 其 结果 类 似 于 : 


a tf.nn.softmax (x) 
b = cross_entropy (a) 


为 每 个 被 分 类 的 图 像 都 计算 cross_entropy_loss 函 数 ， 这 样 即 可 度量 模型 在 每 个 图 像 上 
的 表现 。 


计算 所 有 被 分 类 图 像 的 平均 交叉 炉 : 


cross_entropy_loss= tf.reduce_mean(cross_entropy_loss) 


为 防止 过 拟 合 ， 使 用 L2 正 则 化 方法 ， 即 向 cross_entropy_loss 国 数 插入 一 个 附加 项 : 





reg losses = tf.add n(tf.get collection("losses")) 
return cross entropy loss + REGULARIZATION * reg losses 


其 中 : 


def add_to_regularization_loss(W, b): 
tf.add to collection("losses", tf.nn.12 loss(W)) 
tf.add to collection("losses", tf.nn.12_loss(b) ) 


更 多 关于 防止 过 拟 合 的 方法 ,请 参见 http://www.kdnuggets.com/2015/04/preventing- 
overfitting-neural-networks.html/2 。 


接 下 来 , 构建 网 络 的 权重 、 偏 差 以 及 优化 程序 。 当 然 ， 和 所 有 其 他 网 络 的 实现 过 程 一 样 ， 首 
先 需 要 导入 所 有 必要 的 库 : 
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import tensorflow as tf 


import numpy as np 
import os, sys, 


inspect 


from datetime import datetime 
import EmotionDetectorUtils 


接着 ， 利 用 以 下 代码 设置 数据 的 存储 路 径 和 网 络 参 数 : 


FLAGS 
tf£.flags.DEFINE_st 


tf£.flags.DEFINE_st 


tf£.flags.DEFINE_st 





BATCH_SIZE = 128 
LEARNING_RATE = le 
MAX_ITERATIONS = 1 
REGULARIZATION = 1 
IMAGE_SIZE = 48 
NUM_LABELS = 7 


VALIDATION_PERCENT 


tf.flags.FLAGS 


ring("data_dir",\ 
"EmotionDetector/ 
ring("logs_dir", 


", "Path to data files") 


"logs/EmotionDetector logs/",N 


"Path to where log files are to be saved") 


ring("mode", "train", 


33 
001 
e-2 


0.1 


模型 的 实现 由 emotion_cnn 孙 数 完成 : 


def emotion_cnn(da 
with tf.name_s 


taset): 


cope ("conv1") as scope: 


"mode: 


train 


(Default)/ test") 


tf.summary.histogram("W convi", 
tf.summary.histogram("b convi", 
tf.nn.conv2d(dataset, 


conv 1 


weights['wcl']) 

biases['bc1']) 
weights['wcl'],\ 
lod 
biases['bc1']) 


strides-[1, 


padding-"SAME") 


h, convi 
hd 
h_pooll 


add_to_regularization_loss(weights['wcl'], 


with tf.name s 


tf.summary.histogram("W conv2", 
tf.summary.histogram("b conv2", 


conv 2 t 


h_conv2 
h_2 
h_pool2 


add to regularization loss(weights['wc2'], 


with tf.name scope("fc 1") 


prob=0.5 


image_size 
tf.reshape(h pool2, [- 


h flat 


tf.nn.bias add(conv. 1, 


tf.nn.relu(h, conv1) 


max pool, 2x2 (h, 1) 


cope("conv2") as scope: 


f.nn.conv2d(h_pooll, 
strides=[ 
tf.nn.bias_add(conv_2, 


tf.nn.relu(h, conv2) 


max pool, 2x2 (h_2) 


as scope: 


IMAGE_SIZE / 4 


1, 


The 


1, 


biases['bc1']) 


weights['wc2']) 
biases['bc2']) 
weights['wc2'],N 


1], padding-"SAME") 


biases['bc2']) 


biases['bc2']) 


image size * image size * 64]) 


tf.summary.histogram("W fci", 
tf.summary.histogram("b fci", 
tf.nn.relu(tf.matmulN 


Rafel 


(h_flat, 


weights['wf1']) 
biases['bf1']) 


weights['wf1']) 


+ biases['bf1']) 
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h_fcl_dropout = tf.nn.dropout (h_fcl, prob) 


with tf.name scope("fc 2") as scope: 
tf.summary.histogram("W fc2", weights['wf2']) 
tf.summary.histogram("b fc2", biases['bf2']) 
pred = tf.matmul(h fcl dropout, weights['wf2']) + biases['bf2'] 
return pred 


然后 定义 一 个 main 函 数 ， 在 其 中 定义 数据 集 、 输 入 输出 占 位 符 变量 ,以 及 用 于 启动 训练 步 
又 的 主 会 话 : 





def main(argvzNone): 


该 函数 的 第 一 个 操作 是 载 入 训练 和 验证 数据 。 我 们 会 利用 训练 数据 “ 教 ” 分 类 器 如 何 识别 待 预 
测 标签 ， 然 后 使 用 验证 集 预 估 分 类 器 的 性 能 : 


train_images, \ 
train_labels, \ 
valid_images, \ 
valid_labels, \ 
test_images =\ 
EmotionDetectorUtils.read data(FLAGS.data dir) 


9. 


print "Train size: $s" % train images.shape[0] 


9. 


print 'Validation size: $s' $ valid images.shape[0] 
print "Test size: $s" % test images.shape[0] 


为 输入 图 像 定 义 占 位 符 变量 ， 这 样 就 能 改变 TensorFlow 图 中 的 输入 图 像 。 数 据 类 型 被 设置 为 
float32， 形 状 为 [None，IMG_SIZE，IMAGE_SIZE，1]。 其 中 ，None 表 示 该 张 量 中 可 以 载 人 
任意 数量 的 图 像 ， 每 个 图 像 高 为 jmg_size 像 素 ， 宽 为 img_size 像 素 ， 颜 色 通道 数 为 1: 

input dataset = tf.placeholder (tf.float32,\ 

[None, \ 


IMAGE_SIZE, \ 
IMAGE_SIZE, 1],name="input") 


接着 ， 为 输入 input_qataset 中 的 图 像 的 真实 标签 定义 占 位 符 变 量 。 该 占 位 符 变 量 的 形状 
为 [None，NUM_LABELS] ， 表 示 该 变量 可 以 包含 任意 数量 的 标签 ， 每 个 标签 为 长 度 NUM_LABELS 
的 向 量 。 本 例 中 ，NUM_LABELS 的 值 为 7: 


input labels = tf.placeholder (tf.float32,\ 
[None, NUM_LABELS] ) 


global_step 变 量 追 踪 当 前 已 进行 的 优化 迭代 次 数 。 我 们 希望 将 该 变量 与 其 他 TensorFlow 变 
量 一 起 存 人 检查 点 。 注 意 ， 此 处 的 trainable=False 意 为 TensorFlow 不 会 试图 优化 该 变量 : 


















































global_step = tf.Variable(0, trainable=False) 
下 面 的 arzopout_prob 变 量 用 于 dropout 优 化 : 


dropout prob = tf.placeholder(tf.float32) 
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现在 ， 编 写 网 络 的 测试 阶段 代码 。emotion_cnn () 函数 返回 网 络 对 input_aqataset 变 量 的 
预测 结果 ， 即 pred 类 标签 : 


pred = emotion_cnn(input_dataset) 


output_pred 变 量 为 预测 结果 ， 用 于 网 络 的 测试 和 验证 。 我 们 会 在 运行 的 会 话 中 计算 这 一 


Kx 
s 


output, pred - tf.nn.softmax(pred,name-"output") 

loss_val 变 量 为 预测 的 类 (pred) 和 输入 图 像 的 真实 类 (input labels) 之 间 的 误差 : 
loss_val = loss(pred, input_labels) 

train_op 变 量 定义 了 用 于 最 小 化 cost 函数 的 优化 器 。 本 例 中 仍然 使 用 Adamopt imizer: 


train op = tf.train.AdamOptimizer\ 
(LEARNING_RATE) .minimize\ 
(loss_val, global_step) 





另外 ， 定 义 summary_op， 用 于 TensorBoard 可 视 化 : 
summary op = tf.merge all summaries() 


计算 图 建立 后 ， 需 要 创建 一 个 TensorFlow 会 话 以 执行 该 图 : 





with tf.Session() as sess: 
sess.run(tf.global variables initializer()) 
summary writer - tf.summary.FileWriter(FLAGS.logs dir, sess.graph def) 


定义 saver 变 量 ， 以 存储 该 模型 ; 





saver = tf.train.Saver() 

ckpt = tf.train.get checkpoint state(FLAGS.logs dir) 

if ckpt and ckpt.model checkpoint path: 
saver.restore(sess, ckpt.model checkpoint path) 
print "Model Restored!" 


接 下 来 , 我 们 取 一 批 训练 样本 。 现在 , batch_image 中 保存 的 是 一 批 图 像 , 而 batch_label 
中 是 这 批 图 像 对 应 的 真实 标签 : 





for step in xrange(MAX ITERATIONS): 
batch image, batch label = get next batch(train images,wN 
train labels,wN 
step) 


将 这 批 样本 放 入 一 个 aict 变 量 ， 并 为 TensorFlow 图 中 的 占 位 符 变 量 取 合适 的 变量 名 : 


feed dict = (input dataset: batch_image, \ 
input labels: batch label) 


使 用 这 批 训练 数据 运行 该 优化 器 。TensorFlow 将 feed_qdict_train 中 的 变量 赋值 给 占 位 符 
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变量 ， 然 后 运行 该 优化 需 : 


sess.run(train_op, feed_dict=feed_dict) 
if step $ 10 == 

train_loss, \ 

summary_str =\ 
sess.run([loss_val,summary_op], \ 
feed_dict=feed_dict) 
summary writer.add summary (summary_str, \ 
global. step-step) 
print "Training Loss: $f" $ train loss 


当 运 行 步 数 为 100 的 倍数 时 ， 我 们 在 验证 集 上 验证 训练 出 的 模型 : 


if step $ 100 == 0: 
valid_loss =\ 
sess.run(loss_val,\ 
feed dict-(input dataset:WN 
valid, images," 
input, labels: 
valid, labels) 








TE 





打印 Loss 值 : 
print "£s Validation Loss: %f"\ 
% (datetime.now(), valid_loss) 


在 训练 会 话 的 最 后 保存 模型 


saver.save(sess, FLAGS.logs_dir\ 
+ 'model.ckpt',\ 
global_step=step) 





if name. zumo wein te 
现在 给 出 结果 输出 。 可 以 看 到 ， 在 以 下 模拟 过 程 中 ， 损 失 函 数 的 值 不 断 减 小 : 


Train size: 3761 





Validation size: 417 

Test size: 1312 

2016-11-05 22:39:36.645682 Validation Loss: 1.962719 
2016-11-05 22:42:58.951699 Validation Loss: 1.822431 
2016-11-05 22:46:55.144483 Validation Loss: 1.335237 
2016-11-05 22:50:17.677074 Validation Loss: 1.111559 
2016-11-05 22:53:30.999141 Validation Loss: 0.999061 
2016-11-05 22:56:53.256991 Validation Loss: 0.931223 
2016-11-05 23:00:06.530139 Validation Loss: 0.911489 
2016-11-05 23:03:15.351156 Validation Loss: 0.818303 
2016-11-05 23:06:26.575298 Validation Loss: 0.824178 
2016-11-05 23:09:40.136353 Validation Loss: 0.803449 
2016-11-05 23:12:50.769527 Validation Loss: 0.851074 














>>> 


另外 , 还 可 以 通过 调整 超 参数 的 设置 或 改变 网 络 架构 来 改善 模型 性 能 。 在 下 一 节 中 , 我 们 可 
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4.4.1 


以 看 到 如 何在 你 的 图 像 上 有 效 测试 该 模型 。 


表情 分 类 器 源 代码 


下 面 给 出 上 面 实现 的 表情 分 类 咒 的 完整 源 代 码 : 


import tensorflow as tf 
import numpy as np 

import os, sys, inspect 

from datetime import datetime 
import EmotionDetectorUtils 


FLAGS = tf.flags.FLAGS 
tf.flags.DEFINE string("data dir", 


tf.flags.DEFINE string("logs dir", 
files are to be saved") 





tf.flags.DEFINE string("mode", 
BATCH SIZE - 128 

LEARNING RATE - 1e-3 

MAX ITERATIONS - 1001 
REGULARIZATION = 1e-2 

IMAGE SIZE = 48 


NUM_LABELS = 7 
VALIDATION_PERCENT = 0.1 


"train", 


"EmotionDetector/", 


"logs/EmotionDetector_logs/", 


"mode: train 


def add_to_regularization_loss(W, b): 


tf.add to collection("losses", 

tf.add to collection("losses", 
def weight variable(shape, 
initial - 
if name is None: 

return tf.Variable(initial) 
else: 


return tf.get variable (name, 


def bias variable(shape, 
initial = ti.constant (0.0, 
if name is None: 

return tf.Variable(initial) 


else: 


return tf.get variable (name, 


stddev=0.02, 
tf.truncated_normal (shape, 


tf.nn.12 loss(W)) 
tf.nn.12 loss(b)) 


name=None) : 
stddev=stddev) 


initializer-initial) 


namezNone): 
shape-shape) 


initializer-initial) 


"Path to data files") 


"Path to where log 


(Default)/ test") 


def conv2d basic(x, W, bias): 
conv - tf.nn.conv2d(x, W, strides-[1, 1, 1, 1], padding-"SAME") 
return tf.nn.bias add(conv, bias) 
def max pool 2x2 (x): 
return tf.nn.max pool(x, ksize=[1, 2, 2, 1],\ 
strides-[1, 2, 2, 1], padding-"SAME") 
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def emotion cnn(dataset): 

with tf.name scope("conv1") as scope: 
tf.summary.histogram("W convi", weights['wcl']) 
tf.summary.histogram("b convi", biases['bcl1']) 
conv 1 = tf.nn.conv2d(dataset, weights['wcl'],\ 
strides-[1, 1, 1, 1], padding-"SAME") 
h_convl = tf.nn.bias add(conv 1, biases['bc1']) 
h 1 = tf.nn.relu(h conv1) 
h_pooll = max, pool 2x2 (h_1) 
add to regularization loss(weights['wcil'], biases['bc1']) 
with tf.name scope("conv2") as scope: 
tf.summary.histogram("W conv2", weights['wc2']) 
tf.summary.histogram("b conv2", biases['bc2']) 
conv 2 = tf.nn.conv2d(h_pooll, weights['wc2']," 
strides-[1, 1, 1, 1], padding-"SAME") 
h conv2 - tf.nn.bias add(conv 2, biases['bc2']) 








h conv2 = conv2d_basic(h_pooll, weights['wc2'], biases['bc2']) 
h 2 = tf.nn.relu(h conv2) 
h pool2 = max, pool 2x2 (h_2) 
add, to regularization loss(weights['wc2'], biases['bc2']) 





with tf.name scope("fc 1") as scope: 


probz0.5 
image size - IMAGE SIZE / 4 
h flat = tf.reshape(h pool2, [-1, image size * image size * 64]) 


tf£.summary.histogram("W_fcl", weights['wf1']) 
tf.summary.histogram("b fcil", biases['bf1']) 

h fcil = tf.nn.relu(tf.matmul(h flat, weights['wf1']) +\ 
biases['bf1']) 

h fcil, dropout = tf.nn.dropout (h_fcl, prob) 





with tf.name scope("fc 2") as scope: 

tf.summary.histogram("W fc2", weights['wf2']) 
tf.summary.histogram("b fc2", biases['bf2']) 

# pred = tf.matmul(h fcil, weights['wf2']) + biases['bf2'] 

pred = tf.matmul(h fcl dropout, weights['wf2']) + biases['bf2'] 





return pred 


weights = (^ 
'wcl': weight variable([5, 5, 1, 32], name-"W conv1"), 
'wc2': weight variable([3, 3, 32, 64],name-"W conv2"), 
'wfl': weight variable([(IMAGE SIZE / 4) *\ 
(IMAGE SIZE / 4) * 64, 256],name="W_fcl"), 
'wf2': weight variable([256, NUM LABELS], name-"W fc2") 


biases - ( 
'bcl': bias variable 
'bc2': bias variable 
'bDfl': bias variable 
'bDf2': bias variable 


2], name-"b conv1"), 
4], name="b_conv2"), 
56], name="b_fcl"), 


([3 
([6 
([2 
([NUM LABELS], name-"b fc2") 


def loss(pred, label): 
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cross_entropy_loss =\ 
tf.reduce mean(tf.nn.softmax cross entropy with logits(logits-pred, 
labels=label) ) 

tf.summary.scalar('Entropy', cross entropy. loss) 

reg losses - tf.add n(tf.get collection("losses")) 

tf.scalar summary('Reg loss', reg losses) 

return cross entropy loss + REGULARIZATION * reg losses 





def train(loss, step): 
return tf.train.AdamOptimizer (LEARNING RATE).N 
minimize(loss, global step-step) 


def get next batch(images, labels, step): 
offset - (step * BATCH SIZE) $ (images.shape[0] - BATCH SIZE) 
batch images = images[offset: offset + BATCH SIZE] 
batch labels = labels[offset:offset + BATCH SIZE] 
return batch images, batch labels 





def main(argv=None) : 
train_images, \ 
train_labels, \ 
valid_images, \ 
valid labels," 
test images -^ 
EmotionDetectorUtils.read data(FLAGS.data dir) 


9. 


print "Train size: %s" % train images.shape[0] 


9. 


print 'Validation size: $s' $ valid images.shape[0] 


9. 


print "Test size: $s" $ test images.shape[0] 


global step - tf.Variable(0, trainable-False) 
dropout prob - tf.placeholder(tf.float32) 
input dataset = tf.placeholder(tf.float32,\ 
[None, \ 
IMAGE SIZE,N 
IMAGE SIZE, 1],name-"input") 
input labels = tf.placeholder(tf.float32,\ 
(None, NUM LABELS]) 


pred - emotion cnn(input dataset) 
output, pred - tf.nn.softmax(pred,name-"output") 
loss val - loss(pred, input labels) 
train op - train(loss val, global step) 
summary op - tf.summary.merge all() 
with tf.Session() as sess: 
sess.run(tf.global variables initializer()) 
summary writer = tf.summary.FileWriter(FLAGS.logs_dir,\ 
sess.graph def) 
saver - tf.train.Saver() 
ckpt = tf.train.get checkpoint state(FLAGS.logs dir) 
if ckpt and ckpt.model checkpoint path: 
saver.restore(sess, ckpt.model checkpoint path) 
print "Model Restored!" 


for step in xrange(MAX ITERATIONS): 
batch image, batch label = get next batch(train images,\ 
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train_labels, \ 
step) 
feed_dict = {input_dataset: batch_image, \ 
input_labels: batch_label} 


sess.run(train_op, feed_dict=feed_dict) 
if step % 10 == 
train_loss, summary_str = sess.run([loss_val, \ 
summary. op], 
feed dict-feed dict) 
summary writer.add summary (summary str, 
global. step-step) 
print "Training Loss: $f" $ train loss 


if step $ 100 -- 
valid loss = sess.run(loss val," 
feed dict-(input dataset:WN 
valid_images, \ 
input_labels:\ 
valid_labels}) 
print "%s Validation Loss: %f"\ 
% (datetime.now(), valid_loss) 
saver.save(sess, FLAGS.logs_dir\ 
+ 'model.ckpt',\ 
global_step=step) 


if name. == Sa os 
tf.app.run() 





44.2 ”使 用 自己 的 图 像 测试 模型 


我 们 前 面 使 用 的 数据 集 是 标准 数据 集 。 所 有 人 脸 都 正 对 摄像 机 ， 且 表情 比较 夸张 ， 有 些 甚至 
很 滑稽 。 下 面 看 看 如 果 使 用 更 自然 的 图 片 ， 情况 会 怎样 。 首 先 ,我 们 需要 确定 图 片上 的 人 脸 没 有 
被 文字 履 盖 ， 表 情 可 以 辨认 ， 且 人 脸 的 大 部 分 是 对 焦 到 相机 的 。 


我 首先 使 用 了 图 4-13 这 个 .jpg 图片 (这 是 一 个 彩色 图 像 ， 你 可 以 从 本 书 代 码 仓 库 下 载 )。 



































图 4-13 ”用 于 测试 的 输入 图 像 
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使 用 matplotlib 和 其 他 NumPy Python 库 ， 将 这 张 彩 色 输 入 图 像 转化 为 对 该 网 络 合法 的 输入 ， 
即 灰 度 图 像 : 


img = mpimg.imread('author image.jpg') 
gray = rgb2gray (img) 


转换 函数 为 : 
def rgb2gray (rgb): 
return np.dot(rgb[...,:3], [0.299, 0.587, 0.114]) 


其 结果 如 图 4-14 所 示 。 




















图 4-14 ”转换 后 的 灰 度 输入 图 像 

最 后 ， 可 以 将 这 张 图 像 馈 给 我 们 的 网 络 。 但 首先 要 定义 一 个 TensorFlow 运 行 会 话 : 
sess = tf.InteractiveSession() 

然后 ， 可 以 重新 调用 之 前 保存 的 模型 : 


new_saver = tf.train. 
import_meta_graph('logs/model.ckpt-1000.meta') 

new saver.restore(sess, 'logs/model.ckpt-1000') 

tf.get default graph().as. graph def() 

X = Sess.graph.get tensor by name("input:0") 

y conv = gess.graph.get tensor by name("output:0") 


要 测试 一 幅 图 像 ， 必 须 将 其 变形 为 48 x 48 x 1 大 小 的 网 络 合法 输入 : 
image test = np.resize(gray, (1,48,48,1)) 
我 们 多 次 C10001X ) 评估 同一 张 图 片 ， 以 建立 该 输入 图 片 属于 各 个 表情 的 概率 百分数 值 : 


tResult = testResult() 
num_evaluations = 1000 
for i in range(0,num_evaluations): 
result = sess.run(y_conv, feed_dict={x:image_test}) 
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label = sess.run(tf.argmax(result, 1)) 
label = label[0] 

label = int (label) 

tResult.evaluate (label) 


tResult.display_result (num_evaluations) 
JURE, AER PE SR : 


>>> 

anger = 0.1% 
disgust = 0.1% 
fear = 29.1% 
happy = 50.3% 
sad = 0.1% 
surprise = 2 
neutral = 0. 
>>> 


最 大 概率 值 (happy = 50.3%) 确认 了 我 们 的 路 子 是 对 的 ， 但 当然 ， 这 并 不 能 说 明 我 
模型 是 准确 的 。 若 使 用 更 大 、 更 多 样 化 的 训练 集 , 或 者 干预 网 络 参数 ,或 修改 网 络 架 构 ， 可 
获得 更 好 的 结果 。 


Wo 
e 
oe 





44.3 KE 
我 们 实现 的 分 类 器 的 第 二 部 分 源 代码 如 下 : 


m 





from scipy import misc 

import numpy as np 

import matplotlib.cm as cm 

import tensorflow as tf 

from matplotlib import pyplot as plt 

import matplotlib.image as mpimg 

import EmotionDetectorUtils 

from EmotionDetectorUtils import testResult 


def rgb2gray (rgb): 
return np.dot(rgb[...,:3], [0.299, 0.587, 0.114]) 


img - mpimg.imread('author image.jpg') 

gray - rgb2gray (img) 

plt.imshow(gray, cmap = plt.get cmap('gray')) 
plt.show() 


sess - tf.InteractiveSession() 

new saver = tf.train.import meta graph('logs/model.ckpt-1000.meta') 
new saver.restore(sess, 'logs/model.ckpt-1000') 

tf.get default graph().as. graph def() 

X = gess.graph.get tensor by name("input:0") 

y conv - sess.graph.get tensor, by name("output:0") 





, Hii 


SESE 
Hebe 
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image test = np.resize(gray, (1,48,48,1)) 
tResult - testResult() 
num evaluations - 1000 
for i in range(0,num evaluations): 
result = sess.run(y conv, feed dict-(x:image test)) 
label - sess.run(tf.argmax(result, 1)) 
label = label[0] 
label - int(label) 
tResult.evaluate(label) 


tResult.display result (num evaluations) 


我 们 实现 一 个 testResult Python 类 ， 以 显示 结果 的 百分比 。 该 类 被 定义 在 :1 
DetectorUtils.py 文 件 中 。 





下 面 给 出 该 类 的 源 代码 : 
class testResult: 


def __init__(self): 
self.anger = 0 
self.disgust = 0 
self.fear = 0 
self.happy = 0 
self.sad = 0 
self.surprise = 0 
self.neutral = 0 


def evaluate(self,label): 





if (0 == label): 
self.anger = self.anger-«1 
if (1 == label): 
self.disgust = self.disgust+1 
if (2 == label): 
self.fear = self.fear-«1 
if (3 == label): 
self.happy = self.happy-«1 
if (4 == label): 
self.sad = self.sad+1 
if (5 == label): 
self.surprise = self.surprise+1 
if (6 == label): 


self.neutral = self.neutral-«1 


def display result(self,evaluations): 


print ("anger = " +\ 
str((self.anger/float(evaluations))*100) + " 
print ("disgust = " +\ 


str((self.disgust/float (evaluations) )*100) + 


print ("fear = " +\ 


str((self.fear/float (evaluations) )*100) + "% 


print ("happy = " +\ 


str((self.happy/float (evaluations) )*100) + "% 


Emotion 
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print ("sad = " +\ 
str((self.sad/float(evaluations))*100) + "$") 
print("surprise = " +\ 
str((self.surprise/float(evaluations))*100) + "%") 
print ("neutral = " +\ 


str((self.neutral/float (evaluations) )*100) + "%") 


4.5 小结 

本 章 介绍 了 卷 积 神经 网 络 。 

我 们 看 到 了 这 种 结构 的 网 络 为 什么 称 为 CNN, 并 了 解 到 这 种 网 络 尤 其 适合 图 像 分 类 问题 , 其 
训练 速度 更 快 ， 结 果 更 准确 。 

我 们 实现 了 一 个 图 像 分 类 吉 , 并 在 MNIST 数 据 集 上 对 其 进行 测试 ,实现 了 99% 的 分 类 准确 率 。 

最 后 构建 了 一 个 CNN, 用 来 从 图 像 数据 集中 对 表情 进行 分 类 。 我 们 在 一 张 图 片上 测试 了 该 网 
络 ， 并 评价 了 模型 的 优点 和 局 限 。 

下 一 章 将 介绍 自 编码 器 。 这 种 算法 在 维度 约 减 、 分 类 、 回 归 、 协 同 过 滤 、 特 征 学 习 和 主题 建 
模 等 问题 上 十 分 有 用 。 我 们 将 使 用 自 编码 器 进行 进一步 的 数据 分 析 , 并 在 图 像 数据 集 上 评估 分 类 
性 能 。 
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所 有 监督 学 习 都 面临 着 一 个 巨大 问题 : 维度 灾难 ， 即 随 着 输入 空间 维度 的 增加 ,模型 的 性 能 
逐渐 变 差 。 这 是 因为 随 着 维度 的 增加 ， 从 输入 中 获得 足够 信息 所 需 的 样本 呈 指 数 级 增加 。 为 克服 
这 一 问题 ， 出 现 了 一 些 优化 网 络 。 


第 一 种 优化 网 络 是 自 编码 器 网 络 。 这 种 网 络 的 设计 和 训练 目的 在 于 , 转换 自身 输入 模式 , 使 
得 给 出 降级 的 或 不 完整 的 输入 模式 时 ,可 以 还 原 出 原本 的 模式 。 其 输出 要 尽 可 能 复 现 输 入 ; 其 隐 
藏 层 存 储 了 压缩 的 数据 ， 即 数据 的 一 个 致密 表示 ， 其 中 包含 输入 数据 的 最 基本 特征 。 


第 二 种 优化 网 络 是 玻 尔 兹 曼 机 。 这 种 网 络 包含 一 个 输入 /输出 可 见 层 和 一 个 隐藏 展 。 可 见 层 
与 隐藏 层 之 间 的 连接 是 无 向 的 : 数据 可 以 在 可 见 层 -隐藏 层 和 隐藏 层 - 可 见 层 两 个 方向 游 动 , 且 不 
同 的 神经 单元 可 以 全 连接 或 部 分 连接 。 
和 自 编码 器 类 似 的 还 有 主 成 分 分 析 。 主 成 分 分 析 用 更 少 的 维度 表示 给 定 输 入 。 本 章 仅 讨 论 自 
编码 需 。 
本 章 讨论 的 主题 如 下 : 
Q 上 自 编 码 需 简介 
a 实现 一 个 自 编 码 锅 
口 增强 自 编码 需 的 鲁 棒 性 
O 构建 去 噪 自 编 码 锅 
a dE SE 


5.1 自 编码 器 简介 

自 编码 器 网 络 含 有 3 个 或 3 个 以 上 网 络 层 , 其 输入 和 输出 层 含 有 相同 数量 的 神经 元 , 而 中 间 ( 隐 
藏 ) 层 的 神经 元 数量 较 少 。 网 络 被 训练 用 来 重 现 输入 ， 即 输出 与 输入 相同 的 模式 。 

该 问题 的 重要 意义 在 于 , 由 于 隐藏 层 的 神经 元 数量 较 少 , 所 以 如 果 网 络 可 以 从 样本 中 学 习 并 
可 以 在 一 定 程度 上 泛 化 , 那么 该 网 络 就 可 以 对 数据 进行 压缩 : 隐藏 神经 元 的 状态 为 每 个 样本 提供 
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了 输入 /输出 的 一 个 压缩 版 本 。 





这 种 网 络 的 第 一 个 例子 出 现在 20 世 纪 80 年 代 , 人 们 通过 这 种 方式 压缩 了 一 张 简单 的 图 片 。 这 
种 方法 生成 的 结果 与 标准 数据 压缩 方法 差距 不 大 ， 但 更 加 复杂 。 


最 近 ， 自 编码 需 再 次 受到 关注 ,因为 一 些 作 者 设计 了 一 种 有 效 策 略 ， 能 够 改善 这 种 网 络 的 学 
习 过 程 〈 通 常 学 习 过 程 会 非常 慢 且 未 必 有 效 )。 这 种 策略 通过 网 络 预 学 习 产 生 一 个 较 好 的 权重 初 
始 状态 ， 然 后 用 这 个 初 值 进行 正式 学 习 。 





























of Data with Neural Networks ( 2006 )。 地 址 为 https://www.cs.toronto.edu/~hinton/ 


详情 请 见 杰 弗 里 . 辛 顿 和 重 斯 兰 . 萨 拉 赫 丁 诺 夫 的 论文 : Reducingthe Dimensionality 
i science.pdf. 
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图 5-1 展 示 了 一 个 自 编 码 需 的 典型 工作 模式 。 它 用 两 个 阶段 重建 接收 到 的 输入 数据 : 编码 阶 
段 ， 对 应 对 原始 输入 的 降 维 ; 解码 阶段 ， 即 从 被 编码 ( 压缩 ) 的 数据 中 重建 原始 输入 。 


重建 的 输入 


















































原始 输入 
压缩 表示 

















图 5-1 自 编码 器 中 的 编码 和 解码 阶段 


5.2 ”实现 一 个 自 编码 器 


训练 一 个 自 编 码 需 的 过 程 基本 上 很 简单 。 它 只 是 一 个 输出 和 输入 相同 的 神经 网 络 。 自 编码 需 
的 基本 架构 如 下 。 























首先 有 一 个 输入 层 ， 紧 接着 有 儿 个 隐藏 层 , 然后 在 一 定 的 深度 之 后 ,隐藏 层 会 变 成 相反 的 架 
构 ， 直 到 我 们 达到 一 点 ， 使 得 最 后 一 层 和 输入 层 相 同 。 将 数据 传人 该 网 络 ， 和 希望 学 习 网 络 参 数 。 


本 例 使 用 MNIST 数 据 集中 的 图 像 。 首 先导 入 所 有 主要 库 函 数 : 


import tensorflow as tf 

import numpy as np 

import matplotlib.pyplot as plt 
import mnist_data 


然后 准备 MNIST 数 据 集 。 使 用 input_gata 函 数 载 和 并 设置 数据 : 
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from tensorflow.examples.tutorials.mnist import input_data 
mnist = input data.read data sets("MNIST data/",one hot-True) 


接着 设置 网 络 参数 : 





learning_rate = 0.01 
training_epochs = 10 
batch_size = 256 
display_step = 1 
examples_to_show = 4 


隐藏 特征 的 大 小 如 下 : 


n hidden 1 = 256 
n hidden 2 128 


输入 图 像 的 大 小 如 下 : 





n_input = 784 


最 终 的 大 小 为 28 x 28 = 784 像 素 。 





我 们 要 为 输入 图 像 定义 占 位 符 变量 。 该 张 量 的 数据 类 型 设置 为 f1oat ， 形 状 为 [None， 











n_input] 。None 参 数 表示 该 张 量 中 可 以 载 入 任意 数量 的 图 像 : 





X = tf.placeholder("float", [None, n input]) 


SR, RE SAPS AE Aid 28 o EO A814] Br a FUE a A EE Xo TEXAS, TX 
重 的 初 值 用 tf .random_normal 选 取 ， 该 函数 返回 服从 正 态 分 布 的 随机 值 : 





n_hidden_1])), 


1, n hidden 2])), 





2, n hidden 1])), 











weights - ( 

'encoder h1l': tf.Variable\ 
(t£.random normal([n input, 
'encoder h2': tf.Variable\ 
(tf.random normal ([n hidden 
'decoder h1': tf.Variable\ 
(tf.random normal ([n hidden 
'decoder h2': tf.Variable\ 
(tf.random normal ([n hidden . 


) 
与 之 类 似 ， 定 义 网 络 偏差 : 


biases = { 
'encoder b1': tf.Variable\ 


lg Te aay Fy 


(tf.random normal([n hidden 1])), 


'encoder b2': tf.Variable\ 


(tf.random normal([n hidden 2])), 


'decoder b1': tf.Variable\ 


(tf.random normal([n hidden 1])), 


'decoder b2': tf.Variable\ 


(t£.random normal ([n input])), 
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将 网 络 模型 分 为 两 个 互补 的 、 全 连接 的 网 络 : — i RU — 1 Ri o 
编码 器 负责 编码 数据 。 它 从 MNIST 数 据 集 载 人 一 个 输入 图 像 x， 然 后 对 其 进行 编码 : 


encoder_in = tf.nn.sigmoid(tf.add\ 
(tf.matmul (X, \ 
weights['encoder h1']),^ 
biases['encoder b1'])) 


数据 编码 只 是 一 个 简单 的 矩阵 乘法 操作 。 输入 数据 x 原本 的 维度 为 7834， HIERE, 被 
降低 至 256: 


























(W*x + b) = encoder_in 


此 处 w 是 权重 张 量 encoder_h1，p 为 偏差 张 量 encoder_b1。 

通过 这 种 操作 , 将 输入 图 像 编码 为 自 编码 器 的 一 个 有 用 输入 。 编 码 的 第 二 步 就 是 数据 的 压缩 。 
由 输入 张 量 encogder_in 表 示 的 数据 通过 第 二 次 矩阵 乘法 被 降 维 到 更 小 的 大 小 : 
encoder_out = il a NR 


weights['encoder_h2']),\ 
biases['encoder_b2']) ) 


输入 数据 encoder_in 的 维度 原本 为 256， 现 在 被 压缩 至 128: 
























































(W * encoder_in + b) = encoder_out 


此 处 w 代 表 权 重 张 量 encoder_h2，p 代 表 偏 差 张 量 encoder_b2。 
注意 ， 编 码 阶 段 使 用 的 激活 函数 为 sigmoid 函 数 。 


解码 融 进 行 的 操作 和 编码 融 相 反 。 它 将 输入 数据 解压 缩 , 以 获得 和 网 络 输入 大 小 相同 的 输出 。 
该 过 程 的 第 一 个 步骤 是 将 大 小 为 128 的 encoder_out 张 量 转换 为 中 间 表 示 的 张 量 ， 大 小 为 256: 


decoder in = tf.nn.sigmoid(tf.add 
(t£.matmul(encoder out," 
weights['decoder h1']),^ 
biases['decoder b1'])) 





上 述 代码 用 公式 表示 如 下 : 
(W * encoder out + b) = decoder in 


此 处 w 表 示 权 重 张 量 aecoqer_hl ,大 小 为 236 x 128, bf Rez Kt decoder_b1, K/)H256, 


解码 的 最 后 一 步 是 从 中 间 表 示 ( 大 小 为 256 ) 中 解压 缩 数据 ， 生 成 最 终 的 表示 ( 大 小 为 784 )。 
你 应 该 可 以 想起 ， 这 就 是 原始 输入 数据 的 大 小 : 
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decoder_out = tf.nn.sigmoid(tf.add \ 
(tf.matmul (decoder_in, \ 
weights['decoder_h2']),\ 
biases['decoder_b2']) ) 


y_pregd 参 数 被 设置 为 和 decoder_out 相 等 : 





y_pred = decoder_out 
如 果 输 入 数据 x 和 被 解码 的 数据 相等 ， 网 络 将 会 进行 学 习 。 因 此 ， 我 们 有 如 下 定义 : 
y.true = X 


自 编码 需 的 关键 是 生成 一 个 约 减 和 矩阵， 使 其 能 够 重建 原始 数据 。 因 此 ， 需 要 最 小 化 cost 代 
价 函 数 。 然 后 ， 定 义 cost 困 数 为 y_true 和 y_pred 之 间 的 均 方 误差 : 








cost = tf.reduce_mean(tf.pow(y_true - y_pred, 2)) 


为 优化 cost 函数 ’ 使 用 下 述 RMSPropopt imizer 类 : 





optimizer = tf.train.RMSPropOptimizer(learning rate).minimize(cost) 
然后 准备 创建 会 话 : 
init = tf.global variables initializer() 


with tf.Session() as sess: 
sess.run(init) 


设置 批 图 像 的 大 小 ， 以 训练 该 网 络 : 
total batch = int(mnist.train.num examples/batch size) 


开始 训练 循环 ( 训练 的 时 期 数 Lraining_epochs 被 设置 为 10 ): 





for epoch in range(training_epochs): 
在 每 个 批 内 都 进行 循环 : 


for i in range(total, batch): 
batch xs, batch ys =\ 
mnist.train.next batch(batch, size) 


ISAT AR, RI bat ch_xs iA TE: 


_, € = sess.run([optimizer, cost],\ 
feed_dict={X: batch_xs}) 


显示 每 个 训练 时 期 的 结 





if epoch % display_step == 0: 

print ("Epoch:", '$04d' $ (epoch-«1), 
"coget, Lor} borat (c) 
print ("Optimization Finished!") 


\ 
) 
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最 后 运行 编码 和 解码 步 台 ， 以 测试 该 模型 。 将 图 像 的 一 个 子 集 馈 给 模型 。 此 处 example_ 
to_show 的 值 被 设置 为 4: 


encode_decode = sess.run(y_pred, feed_dict=\ 
(X: mnist.test.images[:examples to show])) 


使 用 matplotlib 中 的 功能 ， 比 较 原 始 图 像 与 重 构 的 图 像 : 


f, a = plt.subplots(2, 4, figsize=(10, 5)) 
for i in range(examples_to_show): 








a[0][i].imshow(np.reshape(mnist.test.images[i], (28, 28))) 
a[1][i].imshow(np.reshape(encode decode[i], (28, 28))) 
f.show() 
plt.draw() 
plt.show() 


Extracting MNIST data/train-images-idx3-ubyte.gz 
Extracting MNIST data/train-labels-idx1-ubyte.gz 
Extracting MNIST_data/t10k-images-idx3-ubyte.gz 








Extracting MNIST_data/t10k-labels-idxl-ubyte.gz 
(Epoche; 0001',. "costs', "0.196781039") 
('Epoch:', '0002', 'cost=', '0.157454371') 
('Epoch:', 0003", "costz', *0.139842913") 
('Epoch:', '0004', 'cost-', '0.132784918') 
('Epoch:', '0005', 'cost-', '0.123214975') 
('Epoch:', '0006', 'cost-', '0.117614307') 
('Epoch:', '0007', 'cost-', '0.111050725') 
('Epcouh:', "0008, “eest="- '0.111332968') 
('Epoch:', '0009', 'cost-', '0.107702859') 
('Epoch:', '0010', 'cost-', '0.106899358') 








Optimization Finished! 


然后 显示 结果 ， 第 一 行为 原始 图 像 ， 第 二 行为 解码 图 像 ， 如 图 5-2 所 示 。 
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图 5-2 ”原始 和 解码 图 像 


118 第 5x 优化 TensorFlow 自 编码 器 





可 以 看 到 ， 数 字 2 和 原始 图 像 不 同 ( 看 起 来 更 像 数字 3 )。 可 以 通过 增加 训练 时 期 或 改变 网 络 
参数 来 改善 模型 输出 。 








自 编码 器 源 代码 
以 下 是 上 面 实现 的 自 编码 器 的 完整 源 代码 : 

















import tensorflow as tf 

import numpy as np 

import matplotlib.pyplot as plt 

from tensorflow.examples.tutorials.mnist import input_data 
mnist = input_data.read_data_sets("MNIST_data/", one_hot=True) 
mnist = mnist_data.read_data_sets("data/") 
learning_rate = 0.01 

training_epochs = 10 

batch_size = 256 

display_step = 1 

examples_to_show = 10 

n hidden 1 = 256 # 1st layer num features 

n hidden 2 = 128 # 2nd layer num features 

n input = 784 # MNIST data input (img shape: 28*28) 
X - tf.placeholder("float", [None, n input]) 
weights - ( 

'encoder h1l': tf.Variable\ 

(tf.random normal([n input, n hidden 1])), 
'encoder h2': tf.Variable\ 

(tf.random normal([n hidden 1, n hidden 2])), 
'decoder h1l': tf.Variable\ 

(tf.random normal([n hidden 2, n hidden 1])), 
'decoder h2': tf.Variable\ 

(tf.random normal([n hidden 1, n input])), 











} 

biases = { 
'encoder b1': tf.Variable\ 
(tf£.random normal ([n hidden 1])), 
'encoder b2': tf.Variable\ 
(t£.random normal ([n hidden 2])), 
'decoder b1': tf.Variable\ 
(t£.random normal ([n hidden 1])), 
'decoder b2': tf.Variable\ 
(tf.random normal([n input])), 





} 
encoder_in = tf.nn.sigmoid(tf.add\ 
(tf.matmul (X, \ 
weights['encoder_h1']),\ 
biases['encoder_b1'])) 
encoder out = tf.nn.sigmoid(tf.add\ 
(tf.matmul (encoder_in, \ 
weights['encoder_h2']),\ 
biases['encoder_b2'])) 
decoder_in = tf.nn.sigmoid(tf.add\ 
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(t£.matmul (encoder_out, \ 
weights['decoder h1']),^ 
biases['decoder b1']1)) 
decoder out = tf.nn.sigmoid(tf.add\ 
(tf.matmul (decoder, in, \ 
weights['decoder h2']),^ 
biases['decoder b2']1)) 
y pred - decoder out 
y true - X 
cost - tf.reduce mean(tf.pow(y true - y pred, 2)) 
optimizer - tf.train.RMSPropOptimizer(learning rate).minimize(cost) 
init = tf.initialize all, variables() 
with tf.Session() as sess: 
sess.run(init) 
total batch - int(mnist.train.num examples/batch size) 


for epoch in range(training. epochs): 
for i in range(total batch): 
batch xs, batch ys =\ 
mnist.train.next batch(batch size) 
c = gess.run([optimizer, cost], \ 
feed_dict={X: batch_xs}) 








if epoch % display_step == 0: 
print ("Epoch:", '%04d' $ (epoch+1),\ 
"eostety {2-9 i}". termatle)) 


print ("Optimization Finished!") 
encode decode = sess.run( 
y pred, feed dict=\ 
(X: mnist.test.images[:examples to show])) 


f, a = plt.subplots(2, 4, figsize-(10, 5)) 
for i in range(examples to. show): 


a[0][i].imshow(np.reshape(mnist.test.images[i], (28, 28))) 
a[1][i].imshow(np.reshape(encode decode[i], (28, 28))) 
f.show() 
plt.draw() 
plt.show() 


5.3 ”增强 自 编码 器 的 鲁 棒 性 


增强 自 编 码 器 鲁 棒 性 的 一 个 成 功 方法 是 ,在 编码 阶段 引入 噪声 。 实 际 上 , 我 们 将 去 噪 自 编 码 
器 称 为 “随机 版 本 的 自 编码 顺 ”， 其 中 的 输入 是 随机 损坏 的 ， 而 生成 同一 个 输入 的 未 损坏 版 本 是 
解码 阶段 的 目标 。 

直观 地 说 ， 一 个 去 噪 自 编码 器 要 完成 两 个 任务 : 第 一 ， 对 输入 编码 并 保留 主要 信息 ; 第 二 ， 
降低 甚至 避免 损坏 输入 的 影响 。 


接 下 来 ， 展 示 一 个 去 噪 自 编码 需 的 实现 。 



































" 
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5.4 构建 去 噪 自 编码 器 


该 网 络 的 架构 十 分 简单 。 一 个 大 小 为 784 像 素 的 输入 图 像 被 随机 损坏 ， 然 后 用 一 个 编码 网 络 
层 对 其 进行 降 维 。 降 维 步 又 将 图 像 从 784 约 减 到 256 像 素 。 


在 解码 阶段 ， 我 们 为 网 络 输出 做 准备 ， 将 原始 图 像 的 大 小 从 256 再 变 回 784。 
像 往常 一 样 ， 先 导入 模型 所 需 的 库 : 





























import numpy as np 

import tensorflow as tf 

import matplotlib.pyplot as plt 

from tensorflow.examples.tutorials.mnist import input_data 





设置 基本 的 网 络 参数 : 
n_input = 784 

n hidden 1 = 256 

n hidden 2 - 256 

n, output - 784 

还 需 设置 会 话 的 参数 : 
epochs zc 
batch size - 100 
disp step - 10 


构建 训练 和 测试 集 。 再 次 从 安装 包 中 自 带 的 tensorflow. examples.tutorials .mnist 库 
导入 input_dqata 特 征 : 








print ("PACKAGES LOADED") 

mnist = input_data.read_data_sets('data/', one_hot=True) 
trainimg = mnist.train.images 

trainlabel = mnist.train.labels 

testimg = mnist.test.images 

testlabel = mnist.test.labels 

print ("MNIST LOADED") 


然后 为 输入 图 像 定 义 占 位 符 变 量 。 数 据 类 型 被 设置 为 Eloat ， 形 状 为 [None，n_input]。 
参数 None 表 示 该 张 量 中 可 以 载 人 任意 数量 的 图 像 ， 其 中 每 个 图 像 的 大 小 为 n_input: 


x = tf.placeholder("float", [None, n input]) 


为 减少 过 拟 合 , 我 们 在 编码 及 解码 过 程 之 前 使 用 dropout 操 作 。 因 此 , 必须 为 每 个 神经 元 的 输 
出 被 保留 的 概率 定义 占 位 符 变量 量 




















dropout_keep_prob = tf.placeholder("float") 


在 这 些 定义 的 基础 上 ， 确 定 网 络 的 权重 和 偏差 : 
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va abl ese 


biases = { 
ors 
DANa 
'out': 


} 


ACHE FW S2 tt Erandom_normali#iM., I2 AROR 
编码 阶段 从 MNIST 数 据 集 获取 输入 ， 然 后 进 和 














encode_in 


encode_out 


{ 
tf.Variable(t 
tf.Variable(t 


tf.Variable(t 
tf.Variable(t 





cf.Variable( 








f.random normal([n input, n hidden 1])), 
f.random normal([n hidden 1, n hidden 2])), 
cf.Variable(tf.random normal([n hidden 2, n output])) 
f.random normal([n, hidden 1])), 
f.random normal([n, hidden 2])), 
tf.random normal ([n, output])) 
回 服从 正 态 分 布 的 随机 值 。 








= tf.nn.sigmoid^ 
(t£.add(tf.matmulV 


(x, 


weights['h1']),^ 


biases['b1'])) 
= tf.nn.dropout\ 


(encode_in, 


dropout_keep_prob) 


在 解码 阶段 应 用 同样 的 步 又 : 


decode_in 


= tf.nn.sigmoid\ 
(t£.add(tf.matmulN 


(encode out, weights['h2']),\ 
biases['b2'])) 
通过 dropout 过 程 减少 过 拟 合 现象 : 


decode_out 





= tf.nn.dropout (decode_in, \ 


dropout_keep_prob) 


现在 ,创建 预测 张 量 y_pred: 


y_pred = tf.nn.sigmoid\ 


(tf.matmul (decode_out, \ 


bi 


weights [ 


ases['out']) 


然后 定义 一 个 cost 度 量 


cost = tf.reduce mean(tf.pow(y pred - y, 2)) 





optmizer - 


tf.train.RMSPropOptimizer(0.01) 


'out']) +\ 


参数 ， 以 指导 参数 优化 过 程 : 





使 用 RMSPropoptimizer 类 ， 最 小 化 cost 子 数 : 


.minimize (cost) 


最 后 ,初始 化 前 面 定义 的 变量 


init = tf.initialize all variables() 


接 下 来 ， 设 置 TensorFlow 运 行 会 话 : 


了 数据 压缩 ， 也 就 是 执行 矩阵 乘法 操作 : 
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with tf.Session() as sess: 
sess.run(init) 
print ("Start Training") 
for epoch in range(epochs): 
num batch = int(mnist.train.num examples/batch size) 
total cost s 0. 
for i in range (num batch): 


在 每 个 训练 时 期 ， 从 训练 集中 选择 一 小 批 数 据 集 进行 训练 : 


batch_xs, batch ys =\ 
mnist.train.next batch(batch, size) 


这 里 有 一 个 关键 点 : 使 用 前 面 引 入 的 numpy 包 中 的 random 了 水 数 , 随机 损坏 batch_xs 数 据 集 。 


batch xs_noisy = batch xs +\ 
0.3*np.random.randn(batch_size, 784) 


将 这 些 数据 集 馈 给 执行 图 ， 然 后 运行 会 话 (sess.run ): 


feeds = {x: batch_xs_noisy, \ 

y: batch_xs, \ 

dropout_keep_prob: 0.8} 
sess.run(optmizer, feed_dict=feeds) 
total_cost += sess.run(cost, feed_dict=feeds) 


每 过 10 个 时 期 ， 程 序 会 显示 当前 的 平均 代价 值 : 





TE 





9. 


if epoch $ disp step -- O0: 
print ("Epoch %02d/%02d average cost: %.6f"\ 


9. 


$ (epoch, epochs, total cost/num batch)) 
最 后 ， 开 始 测试 训练 出 的 模型 : 
print ("Start Test") 


为 测试 该 模型 ， 随 机 从 测试 集中 选取 一 个 图 像 : 











randidx = np.random.randint\ 
(testimg.shape[0], size=1) 

orgvec = testimg[randidx, :] 

testvec = testimg[randidx, :] 

label = np.argmax(testlabel[randidx, :], 1) 


print ("Test label is $d" % (label) ) 
noisyvec = testvec + 0.3*np.random.randn(1, 784) 


然后 ， 在 选 出 的 图 像 上 运行 训练 出 的 模型 : 


outvec = sess.run(y. pred,feed dict-(x: noisyvec, \ 
dropout keep prob: 1j) 


如 你 所 见 ， 下 面 的 plotresult 函 数 将 会 显示 原始 图 像 、 噪 声 图 像 和 预测 图 像 


plotresult (orgvec,noisyvec,outvec) 
print ("restart Training") 
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运行 会 话 ， 应 该 看 到 与 下 面 类 似 的 结 


PACKAGES LOADED 

Extracting data/train-images-idx3-ubyte.gz 
Extracting data/train-labels-idxl-ubyte.gz 
Extracting data/t10k-images-idx3-ubyte.gz 
Extracting data/t10k-labels-idxl-ubyte.gz 
MNIST LOADED 

Start Training 


为 简洁 起 见 ， 此 处 只 给 出 10 个 和 100 个 训练 时 期 后 的 结果 : 


Epoch 00/100 average cost: 0.212313 
Start Test 
Test label is 6 


图 $-3 是 原始 图 像 和 噪声 图 像 〈《 如 你 所 见 ， 该 数字 为 6 )。 




































































图 5-3 ”原始 和 噪声 图 像 
图 5-4 显 示 了 一 个 重建 效果 比较 差 的 图 像 。 








重建 的 图 像 
10 15 20 


0 5 25 

















图 5-4 重建 的 图 像 
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在 100 个 训练 时 期 后 ， 我 们 获得 了 一 个 更 好 的 结果 : 


Epoch 100/100 average cost: 0.018221 
Start Test 
Test label is 9 


同样 ， 显 示 原 始 和 噪声 图 像 ， 如 图 $-$ 所 示 。 




































































图 5-5 ”原始 和 噪声 图 像 
接 下 来 是 一 个 重建 结果 比较 好 的 图 像 ， 如 图 5-6 所 示 。 





























重建 的 图 像 
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图 5-6 重建 的 图 像 


去 噪 自 编码 器 源 代码 
下 面 给 出 前 面 实 现 的 自 编码 右 的 完整 源 代码 : 
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import numpy as np 

import tensorflow as tf 

import matplotlib.pyplot as plt 

from tensorflow.examples.tutorials.mnist import input_data 

#Plot function 

def plotresult (org_vec,noisy_vec,out_vec): 
plt.matshow(np.reshape(org_vec, (28, 28)),\ 

cmap=plt.get_cmap('gray') ) 

plt.title("Original Image") 

.colorbar() 

.matshow(np.reshape(noisy vec, (28, 28)),\ 

cmap-plt.get cmap('gray')) 

plt.title("Input Image") 

plt.colorbar() 








outimg - np.reshape(out vec, (28, 28)) 
plt.matshow(outimg, cmap-plt.get cmap('gray')) 
plt.title("Reconstructed Image") 
plt.colorbar() 

plt.show() 


4 NETOWORK PARAMETERS 
n input - 784 

n hidden 1 - 256 

n hidden 2 - 256 

n output - 784 








epochs - 110 
batch, size - 100 
disp step - 10 


print ("PACKAGES LOADED") 





mnist - input data.read data sets('data/', one hot-True) 
trainimg - mnist.train.images 

trainlabel - mnist.train.labels 

testimg - mnist.test.images 

testlabel - mnist.test.labels 

print ("MNIST LOADED") 


# PLACEHOLDERS 

x = tf.placeholder("float", [None, n input]) 
y = tf.placeholder("float", [None, n output]) 
dropout, keep prob - tf.placeholder("float") 


# WEIGHTS 

weights = { 
'h1': tf.Variable(tf.random_normal([n_input, n_hidden_1])), 
'h2': tf.Variable(tf.random normal([n hidden 1, n_hidden_2])), 
'out': tf.Variable(tf.random normal([n hidden 2, n output])) 





} 

biases = { 
'D1': tf.Variable(tf.random normal([n hidden 1])), 
'b2': tf.Variable(tf.random normal([n, hidden, 2])), 
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'out': tf.Variable(tf.random normal([n output])) 


encode in = tf.nn.sigmoid\ 
(tf.add(tf.matmul\ 
(x, weights['h1']),\ 
biases['b1'])) 


encode out = tf.nn.dropout\ 
(encode in, dropout keep prob) 


decode in = tf.nn.sigmoid\ 
(tf.add(tf.matmul\ 
(encode_out, weights['h2']),\ 
biases['b2'])) 


decode_out = tf.nn.dropout (decode_in, \ 
dropout_keep_prob) 


y_pred = tf.nn.sigmoid\ 
(t£.matmul (decode_out, \ 
weights['out']) +\ 
biases['out']) 


# COST 
cost = tf.reduce_mean(tf.pow(y_pred - y, 2)) 


# OPTIMIZER 
optmizer = tf.train.RMSPropOptimizer (0.01) .minimize(cost) 


# INITIALIZER 
init = tf.global variables initializer() 


# Launch the graph 
with tf.Session() as sess: 
sess.run(init 
print ("Start Training") 
for epoch in range(epochs): 
num batch = int(mnist.train.num examples/batch size) 
total cost e 0 
for i in range(num batch): 
batch xs, batch ys - mnist.train.next batch(batch size) 
batch xs noisy = batch xs\ 
+ 0.3*np.random.randn(batch size, 784) 
feeds = (x: batch xs noisy,W 
y: batch xs, 
dropout, keep prob: 0.8j 
sess.run(optmizer, feed dict-feeds) 
total cost += sess.run(cost, feed dict-feeds) 





# DISPLAY 


9. 


if epoch $ disp step -- O0: 
print ("Epoch %02d/%02d average cost: %.6f"\ 


9. 


$ (epoch, epochs, total cost/num batch)) 
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# Test one 

print ("Start Test") 

randidx = np.random.randint\ 
(testimg.shape[0], size=1) 

orgvec = testimg[randidx, :] 

testvec = testimg[randidx, :] 

label = np.argmax(testlabel[randidx, :], 1) 


print ("Test label is $d" $ (label) ) 
noisyvec = testvec + 0.3*np.random.randn(1, 784) 
outvec = sess.run(y_pred, \ 
feed_dict={x: noisyvec, \ 
dropout_keep_prob: 1}) 


plotresult (orgvec,noisyvec, outvec) 
print ("restart Training") 


5.5 卷 积 自 编 码 器 


目前 为 止 , 我们 看 到 的 自 编码 顺 输 入 都 是 图 像 。 因 此 ， 你 不 免 要 问 ， 卷 积 架构 能 和 否 比 前 面 讨 
论 的 自 编 码 带 架构 性 能 更 好 。 


下 面 就 开始 分 析 卷 积 自 编码 需 中 编码 顺和 解码 器 的 工作 方式 。 








5.5.1 编码 器 


编码 器 包含 3 个 卷 积 层 。 特 征 的 数量 由 输入 数据 的 1， 变 为 第 一 个 卷 积 层 的 16， 然 后 变 为 第 二 
个 卷 积 层 的 32， 再 变 到 最 后 一 个 卷 积 层 的 64。 


从 第 一 个 卷 积 层 向 第 二 个 卷 积 层 转换 时 ， 图 像 的 形状 经 历 了 压缩 过 程 ， 如 图 5-7 所 示 。 








64 个 特征 
32 个 特征 


16 个 特征 " 


第 一 个 卷 积 层 第 二 个 卷 积 层 第 三 个 卷 积 导 





—(A) 


编码 器 











图 5-7 编码 阶段 的 数据 流 
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5.5.2 ”解码 器 


解码 器 包括 3 个 按 顺 序 排 列 的 反 卷 积 层 。 对 每 个 反 卷 积 操作 ， 我 们 减少 特征 数量 ， 以 获取 与 
原始 图 像 大 小 相同 的 图 像 。 除 了 要 减少 特征 数量 ， 反 卷 积 还 会 改变 图 像 的 形状 ， 如 图 5-8 所 示 。 











64 个 特征 ”32 个 特征 ”16 个 特征 5 
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bs X 去 
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图 $-8 ”解码 阶段 的 数据 流 





现在 ， 着 手 实现 一 个 卷 积 自 编码 器 。 第 一 步 是 导 和 人 基本 库 : 


import 
import 
import 
import 
import 


matplotlib.pyplot as plt 

numpy as np 

math 

tensorflow as tf 
tensorflow.examples.tutorials.mnist.input_data as input_data 


然后 创建 训练 和 测试 集 : 


mnist = input_data.read_data_sets("data/", one_hot=True) 
trainimgs = mnist.train.images 

trainlabels = mnist.train.labels 

testimgs = mnist.test.images 

testlabels = mnist.test.labels 

ntrain = trainimgs.shape[0] 

ntest = testimgs.shape[0] 

dim = trainimgs.shape[1] 

nout = trainlabels.shape[1] 


为 输入 图 像 定 义 一 个 占 位 符 变量 : 


Xes EE 


placeholder(tf.float32, [None, dim]) 


数据 类 型 被 设置 为 fl1oat32， 形 状 为 [None，dim] ， 其 中 None 表 示 该 张 量 中 可 以 载 人 任意 


数量 的 图 像 ， 





每 个 图 像 为 长 度 为 aim 的 向 量 。 然 后 ， 为 输出 图 像 定 义 占 位 符 变量 。 该 变量 的 形状 


被 设置 为 [None，dim] ， 和 输入 图 像 形状 相同 : 


yo mb E. 


placeholder(tf.float32, [None, dim]) 
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然后 定义 keepprob 变 量 ， 以 设置 神经 网 络 训练 过 程 中 dropout 的 比例 : 








keepprob = tf.placeholder (tf.float32) 
另外 ， 还 需要 定义 每 个 网 络 层 的 节点 数量 : 
ni s 16 

n2 = 32 

n3 e 54 

ksize - 5 























网 络 总 共 包 含 6 个 层 。 前 三 个 层 为 用 于 编码 的 卷 积 层 ， 后 三 个 层 为 用 于 解码 的 反 卷 积 层 。 
























































weights = { 
'cel': tf£.Variable(tf.random_normal\ 
([ksize, ksize, 1, n1],stddevz0.1)), 
'ce2': tf£.Variable(tf.random_normal\ 
([ksize, ksize, n1, n2],stddev=0.1)), 
'ce3': tf.Variable(tf.random normal\ 
([ksize, ksize, n2, n3],stddev=0.1)), 
'cd3': tf.Variable(tf.random normal 
([ksize, ksize, n2, n3],stddev=0.1)), 
'cd2': tf.Variable(tf.random normal\ 
([ksize, ksize, n1, n2],stddev=0.1)), 
'cdi': tf.Variable(tf.random normal\ 
([ksize, ksize, 1, n1],stddevz0.1)) 
} 
biases = { 
'bel': tf.Variable\ 
(tf£.random normal([n1], stddev=0.1)), 
'be2': tf.Variable\ 
(tf.random normal([n2], stddevz0.1)), 
‘be3': tf.VariableN 
(tf.random normal([n3], stddev=0.1)), 
'pbd3': tf.VariableN 
(tf£.random normal([n2], stddevz0.1)), 
'bd2': tf.Variable\ 
(tf.random normal([n1], stddev=0.1)), 
'bdl': tf.Variable\ 
(tf.random normal([1], stddev=0.1)) 
} 





Pini cack Bee SAAR 
以 及 _keepprob 人 参数 ; 


编码 器 。 传 递 的 输入 为 图 像 x、 权 重 _w 和 偏差 _b 的 数据 结构 ， 


def cae(_X, _W, _b, _keepprob): 


最 初 的 图 像 为 784 像 素 , 必须 变形 为 大 小 为 28 x 28 的 矩阵 ,， 供 下 一 个 卷 积 层 进行 进一步 处 理 ; 


_input_r 


一 个 卷 积 层 为 _cel， 其 输入 为 input_r 张 量 ， 代 表 输 入 图 像 : 


tf.reshape( X, shape-[-1, 28, 28, 1]) 





NU 
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_cel = tf.nn.sigmoid\ 
(tf.add(tf.nn.conv2d\ 


( input r, _W['cel'],\ 
strides=[1, 2, 2, Ll] ny 
padding='SAME'), \ 
.b['be1'])) 





在 数据 移动 到 第 二 层 卷 积 之 前 ， 先 进行 dropout 操 作 : 
_cel = tf.nn.dropout (_cel,  keepprob) 
在 接 下 来 的 两 个 编码 层 中 ， 进 行 同样 的 卷 积 和 dropout 操 作 : 


ce2 = tf.nn.sigmoid\ 
(tf.add (tf.nn.conv2d\ 
(_cel, _W['ce2'],\ 
strides=[1, 2, 2, 1],\ 
padding='SAME'), \ 
_b['be2'])) 
.ce2 = tf.nn.dropout( ce2,  keepprob) 


.ce3 = tfi.nn.sigmoid\ 
(tf.add(tf.nn.conv2d\ 
(_ce2, _W['ce3'],\ 
atrideselli, 2; 2, EIN 
padding='SAME'), \ 
_b['be3'])) 
_ce3 = tf.nn.dropout( ce3,  keepprob) 


特征 的 数量 从 1 ( 输入 图 像 ) 增加 至 64， 而 原始 图 像 的 形状 从 28 x 28 降 至 7x 7。 在 解码 阶段 ， 
压缩 (或 编码 ) 并 变形 的 图 像 必 须 尽 可 能 与 原始 图 像 相同 。 


为 实现 这 一 点 ， 对 接 下 来 的 3 层 使 用 TensorFlow 函 数 conv2d_transpose: 








tf.nn.conv2d transpose(value, filter, output shape, strides, padding-'SAME') 


这 一 过 程 有 时 称 为 反 卷 积 。 其 实 这 仅仅 是 对 conv2dG 的 转 置 CRE ) 操作 。 
该 函数 的 参数 如 下 。 


O value: 类 型 为 浮 点 型 ， 形 状 为 GIO, 高 度 , SERE, 输入 通道 ) 的 四 维 张 量 。 

O filter: 类 型 与 value 相 同 ， 形 状 为 (高度 , 宽度 , 输出 通道 , 输入 通道 ) 的 四 维 张 量 。 
in_channels 的 维度 必须 和 value 相 匹配 。 

O output shape: 一 维 张 量 ， 代 表 反 卷 积 操 作 符 的 输出 形状 。 

O strides: 一 个 整 型 列表 。 输 入 张 量 每 一 维 滑动 窗口 的 步 长 。 

O padding: 一 个 字符 串 ， 具 有 两 种 类 型 valid 和 same。 

QO conv2d_transpose: 返回 一 个 和 value 人 参数 类 型 相同 的 张 量 。 


第 一 个 反 卷 积 层 _cq3 的 输入 为 卷 积 层 _ce3 。 该 层 返回 张 量 _cda3 ， 其 形状 为 (1,7, 7, 32): 
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_cd3 = tf.nn.sigmoid\ 
(tf.add(tf.nn.conv2d_transpose\ 

人 
tf.pack([tf.shape( X)[0], 7, 7, n2]),\ 
strides-[1, 2, 2, a 
padding='SAME'), \ 
_b['bd3'])) 

.cd3 = tf.nn.dropout( cd3, _keepprob) 


我 们 将 反 卷 积 层 _ca3 作 为 输入 传 入 第 二 个 反 卷 积 层 _ca2。 该 层 返回 张 量 _ca2， 形 状 为 
(1, 14, 14, 16). 


_cd2 = tf.nn.sigmoid\ 
(tf.add(tf.nn.conv2d_transpose\ 
t-ed3;,.. WL reda isy 
tf.pack([tf.shape( X)[0], 14, 14, n1]),\ 
strides=[1, 2, 2, 1],\ 
padding='SAME'), \ 
_b['bd2'])) 
.cd2 = tf.nn.dropout( cd2, _keepprob) 


第 三 个 也 是 最 后 一 个 反 卷 积 层 _cdl 的 输入 为 _cdq2 层 。 该 层 返回 结果 张 量 _out ， 其 形状 为 











(1, 28, 28, 1), aA RUE PA. E 
-cdi = tf.nn.sigmoid\ 
(tf.add(tf.nn.conv2d_transpose\ 
(_cd2, _W['cd1'], \ 
tf.pack([tf.shape( X)[0], 28, 28, 1]),\ 


strides-[1, 2, 2, 1],\ 
padding='SAME'), \ 
_b['bd1'])) 

.cd1 = tf.nn.dropout( cd1, _keepprob) 

out - ced 

return out 


然后 ， 将 cost 代 价 函 数 定 义 为 y 和 preq 之 间 的 均 方 误差 : 


pred = cae(x, weights, biases, keepprob) 
cost = tf.reduce_sum\ 
(tf.square(cae(x, weights, biases, keepprob) \ 
- tf.reshape(y, shape-[-1, 28, 28, 1]))) 
learning rate - 0.001 


使 用 Adaamoptimizer， 优 化 代价 函数 : 
optm = tf.train.AdamOptimizer(learning rate).minimize(cost) 


接 下 来 ， 为 网 络 设置 运行 会 话 : 


init = tf.global variables initializer() 
print ("Functions ready") 

sess = tf.Session() 

sess.run(init) 

mean img = np.zeros((784)) 
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批 的 大 小 设置 为 128: 
batch_size = 128 
训练 时 期 设置 为 5: 
n_epochs = 5 


开始 循环 会 话 : 








for epoch_i in range(n_epochs): 
在 每 个 训练 时 期 中 ， 我 们 获取 一 批 数 据 trainbatch: 


for batch_i in range(mnist.train.num_examples // batch_size): 
batch xs, _ = mnist.train.next batch(batch size) 
trainbatch - np.array([img - mean img for img in batch xs]) 


和 去 噪 自 编 码 需 一 样 ， 加 入 随机 噪声 ， 以 获得 更 好 的 学 习 效 果 : 





trainbatch_noisy = trainbatch + \ 
0.3*np.random.randn(trainbatch.shape[0], 784) 
sess.run(optm, feed_dict={x: trainbatch_noisy\ 
, y: trainbatch, keepprob: 0.7} 
print ("[%02d/%02d] cost: $.4f" % (epoch_i, n_epochs\ 
, sess.run(cost, feed_dict={x: trainbatch_noisy\ 
, y: trainbatch, keepprob: 1.}))) 

在 每 一 个 训练 阶段 ， 随 机 选取 5 个 训练 样本 : 
if (epoch i % 1) == 0: 

n_examples = 5 
test_xs, _ = mnist.test.next_batch(n_examples) 
test xs noisy = test xs + 0.3*np.random.randn (\ 

test xs.shape[0], 784) 


然后 ， 在 一 个 小 子 集 上 测试 训练 出 的 模型 ， 








recon = sess.run(pred, feed_dict={x: test_xs_noisy,\ 
keepprob: 1.}) 
fig, axs = plt.subplots(2, n_examples, figsize=(15, 4)) 
for example i in range(n_examples): 
axs[0] [example i].matshow(np.reshape(* 
test xs noisy[example i, :], (28, 28))\ 
, cmap-plt.get cmap('gray')) 


最 后 ， 可 以 用 matplotlib 可 视 化 输入 和 学 习 到 的 数据 集 : 


axs[1] [example_i].matshow(np.reshape(\ 
np.reshape(recon[example i, ...], (784,))\ 
+ mean img, (28, 28)), cmap-plt.get cmap('gray')) 
plt.show() 
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运行 上 述 代码 ， 会 得 到 以 下 输出 : 


>>> 

Extracting data/train-images-idx3-ubyte.gz 
Extracting data/train-labels-idxl-ubyte.gz 
Extracting data/ti0k-images-idx3-ubyte.gz 
Extracting data/t10k-labels-idxl-ubyte.gz 
Packages loaded 

Network ready 

Functions ready 

Start training.. 

[00/05] cost: 8049.0332 





[01/05] cost: 3706.8667 
[02/05] cost: 2839.9155 
[03/05] cost: 2462.7021 
[04/05] cost: 2391.9460 
de ed 


TE 





注意 ， 对 每 个 训练 阶段 ， 我 们 会 可 视 化 前 面 提 到 的 输入 数据 集 和 对 应 的 学 习 到 的 数据 集 。 
可 以 看 到 ， 第 一 个 训练 时 期 过 后 ， 看 不 出 学 习 出 的 图 像 是 什么 ( 见 图 5-9 )。 








0 5 10152025 ae 5 10 15 20 25 od 5 10 15 20 25 on 5 10 15 20 25 o2 5 10 15 20 25 









0 5 10152025 


al 5 10 15 20 25 


5 
10 p 
d ou 
20 
25 














图 5-9 第 一 时 期 图 像 
第 二 个 训练 时 期 过 后 ， 图 像 变 得 清晰 了 一 些 ( 见 图 5-10 )。 
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图 5-10 第 二 时 期 图 像 
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第 三 时 期 训练 结果 如 图 $-11 所 示 。 
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第 四 时 期 的 结 











变 得 更 好 了 见 图 5-12 )。 
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实际 上 , 在 第 四 个 训练 时 








图 5-12 


其 即 可 结束 训练 。 女 


第 四 时 期 


图 像 











[ 果 继 续 进 行 第 


五 个 时 期 的 训练 , 结果 如 图 5-13 所 示 。 
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5.5.3 ” 卷 积 自 编码 器 源 代码 
以 下 是 上 一 节 示例 的 源 代码 : 





AAA 
^ 
AD 


五 时 期 
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import matplotlib.pyplot as plt 

import numpy as np 

import math 

import tensorflow as tf 

import tensorflow.examples.tutorials.mnist.input_data as input_data 


#LOAD PACKAGES 


mnist = input_data.read_data_sets("data/", one_hot=True) 
trainimgs = mnist.train.images 

trainlabels = mnist.train.labels 

testimgs = mnist.test.images 

testlabels = mnist.test.labels 

ntrain = trainimgs.shape[0] 

ntest = testimgs.shape[0] 

dim = trainimgs.shape[1] 

nout = trainlabels.shape[1] 


print ("Packages loaded") 


#WEIGHT AND BIASES 


n1 = 16 
H2: 992 
n3 - 64 



























































'cel': tf.Variable(tf.random normalN 
([ksize, ksize, 1, n1],stddevz0.1)), 
'ce2': tf.Variable(tf.random normal\ 
([ksize, ksize, n1, n2],stddev=0.1)), 
'ce3': tf.Variable(tf.random normal\ 
([ksize, ksize, n2, n3],stddev=0.1)), 
'cd3': tf£.Variable(tf.random_normal\ 
([ksize, ksize, n2, n3],stddev=0.1)), 
'cd2': tf.Variable(tf.random normal\ 
([ksize, ksize, nl, n2],stddev=0.1)), 
'cdi': tf.Variable(tf.random normalN 
([ksize, ksize, 1, n1],stddev-0.1)) 
} 
biases = { 
'bel': tf.Variable\ 
(tf£.random normal([n1], stddev=0.1)), 
'be2': tf.Variable\ 
(tf.random normal([n2], stddevz0.1)), 
'be3': tf.VariableN 
(t£.random normal([n3], stddev=0.1)), 
'bd3': tf.VariableN 
(tf£.random normal([n2], stddev=0.1)), 
'bd2': tf.Variable\ 
(tf.random normal([n1], stddev=0.1)), 
'bdl': tf.Variable\ 
(tf£.random normal([1], stddevz0.1)), 
} 


def cae( X, _keepprob) : 
_input_r = tf.reshape( X, shape-[-1, 28, 28, 1]) 
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# Encoder 


_cel 


_ce3 


tfi.nn.sigmoid\ 
(tf.add(tf.nn.conv2 


Input- cj 


strides-[1, 


padding-'SAME'), 


_b['bel'])) 


tf.nn.dropout( cel, 


tf.nn.sigmoidN 


(tf.add(tf.nn.conv2d\ 


(_cel, _W[' 


strides-[1, 


padding='SAME'), \ 


_b['be2'"])) 
tf.nn.dropout( ce2, 


tf.nn.sigmoidN 


d\ 
W['ce1'], 
2, 2, 1], 

N 

_keepprob) 

ce2'],\ 
2525 l1]. 


_keepprob) 


(tf.add(tf.nn.conv2d\ 


(_ce2, _W[' 


strides-[1, 


padding='SAME'), \ 


_b['be3'])) 
tf.nn.dropout(. ce3, 


# Decoder 


_cd3 


_cd3 


d 


_cd2 


_cdl 


tf.nn.sigmoidN 


ce3' 


],N 
25.2 


1], 


_keepprob) 


\ 


\ 


(tf.add(tf.nn.conv2d_transpose\ 


, Wl! 


(_ce3 


cd3'],^ 


tf.pack([tf.shape( X) 


strides-[1, 


2, 2, 1], 


padding='SAME'), \ 


_b['bd3'])) 
tf£.nn.dropout (_cd3, 


tf.nn.sigmoidN 


_keepprob) 


[ 
\ 


(tf.add(tf.nn.conv2d_transpose\ 


(_cd3 W' 


RCS 


cd2'],^ 


tf.pack([tf.shape( X) 


strides-[1, 


2, 2, 1], 


padding='SAME'), \ 


_b['bd2'])) 
tf.nn.dropout (_cd2, 


tfi.nn.sigmoid\ 


_keepprob) 


[ 
\ 


0], 


(tf.add(tf.nn.conv2d_transpose\ 


(_cd2 W[' 


po. oni 


cdi'] ,\ 


tf.pack([tf.shape( X) 


strides-[1, 


2, 2, 1], 


padding='SAME'), \ 


_b['bd1'])) 
tf.nn.dropout( cdi, 
Adi 


_keepprob) 


[ 
\ 


0], 


14, 


14, 


n1]),N 
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return _out 
print ("Network ready") 


x = tf.placeholder(tf.float32, [None, dim] ) 
y = tf.placeholder(tf.float32, [None, dim] ) 
keepprob = tf.placeholder(tf.float32) 
pred = cae(x, weights, biases, keepprob)#['out'] 
cost = tf.reduce_sum\ 

(tf.square(cae(x, weights, biases, keepprob) \ 

- tf.reshape(y, shape-[-1, 28, 28, 1]))) 

learning_rate = 0.001 
optm = tf.train.AdamOptimizer(learning rate).minimize(cost) 
init = tf.global variables initializer() 
print ("Functions ready") 


sess - tf.Session() 

sess.run(init) 

# mean img = np.mean(mnist.train.images, axis=0) 
mean img - np.zeros((784)) 

# Fit all training data 

batch, size - 128 
n epochs - 5 


print("Strart training..") 
for epoch i in range(n epochs): 
for batch i in range(mnist.train.num examples // batch size): 
batch xs, _ = mnist.train.next batch(batch size) 
trainbatch - np.array([img - mean img for img in batch xs]) 
trainbatch noisy = trainbatch + 0.3*np.random.randn(^ 
trainbatch.shape[0], 784) 
sess.run(optm, feed dict={x: trainbatch_noisy\ 
, y: trainbatch, keepprob: 0.7}) 
print ("[%02d/%02d] cost: $.4f" $ (epoch i, n_epochs\ 
, Sess.run(cost, feed dict-(x: trainbatch_noisy\ 
, y: trainbatch, keepprob: 1.}))) 





if (epoch i $ 1) -- O0: 
n examples - 5 
test xs, _ = mnist.test.next batch(n examples) 
test xs noisy = test xs + 0.3*np.random.randn(^ 
test xs.shape[0], 784) 
recon = sess.run(pred, feed dict-í(x: test xs noisy,WN 
keepprob: 1.}) 
fig, axs - plt.subplots(2, n examples, figsize-(15, 4)) 
for example i in range(n examples): 
axs [0] [example i].matshow(np.reshape(wN 
test xs noisy[example i, :], (28, 28))\ 
, cmap-plt.get cmap('gray')) 
axs[1] [example i].matshow(np.reshape(wN 
np.reshape(recon[example i, ...], (784,))\ 
- mean img, (28, 28)), cmap-plt.get cmap('gray')) 
plt.show() 
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5.6 小结 





本 童 实现 了 儿 种 优化 网 络 ， 称 为 自 编 码 颖 。 上 自 编 码 右 的 本 质 是 一 个 数据 压缩 网 络 模 型 。 




















自 编码 器 对 给 定 输入 编码 为 更 小 维度 上 的 表示 , 然后 , 用 解码 器 将 已 被 编码 的 数据 重建 为 原 








始 输入 。 


我 们 


























我 们 实现 的 所 有 自 编 码 需 都 包含 


























还 讨论 了 如 何 改 善 自 编码 名 的 性 能 ， 
后 ， 我 们 应 用 第 4 章 介绍 的 CNN 网 络 概念 ， 实 现 了 卷 积 自 编码 器 。 


个 编码 部 分 和 一 个 解码 部 分 。 
即 在 训练 过 程 中 引入 噪声 ,构建 去 噪 自 编码 器 。 最 

















下 一 章 将 介绍 循环 神经 网 络 。 我 们 会 先 讲 解 关 于 这 种 网 络 的 一 些 基 本 概念 , 然后 用 这 种 架构 
实现 几 个 有 趣 的 例子 。 


第 6 章 


循环 神经 网 络 








循环 神经 网 络 是 近来 使 用 较为 广泛 的 一 种 深度 学 习 架 构 -RNN 的 基本 思想 是 将 输入 的 时 序 类 
型 信息 纳入 考虑 。 


这 种 网 络 是 循环 的 , 因为 它 对 一 个 输入 序列 内 的 所 有 元 素 都 执行 同样 的 计算 ， 而 每 个 元 素 的 
输出 除了 依赖 于 当前 输入 ， 还 要 受 之 前 所 有 计算 的 影响 。 


RNN 被 证 明 ， 在 文本 字符 预测 和 句子 中 下 一 个 单词 的 预测 等 问题 上 具有 非常 好 的 性 能 。 


当然 , RNN 也 用 于 解决 更 复杂 的 问题 ， 比 如 机 器 翻译 。 在 这 个 问题 中 ,网 络 的 输入 为 一 个 序 
列 的 源 语 单词 , 输出 为 由 该 序列 翻译 成 的 目标 语言 。 最 后 , RNN 还 广泛 应 用 于 其 他 非常 重要 的 领 
域 ， 如 语音 识别 和 图 像 识 别 等 。 


本 章 的 主要 主题 如 下 : 


口 RNN 的 基本 概念 
口 RNN 的 工作 机 制 
口 RNN 的 展开 

口 梯度 消失 问题 
口 LSTM 网 络 

O RNN 图 像 分 类 器 
QO 双向 RNN 

口 文本 预测 





























6.1 RNN 的 基本 概念 


人 在 思考 问题 时 不 会 从 零 开 始 ， 因 为 人 脑 有 所 谓 的 “记忆 持续 性 "， 即 能 够 将 过 去 的 信息 与 现 
在 的 信息 联系 起 来 。 然而, 传统 的 神经 网 络 并 没有 考虑 到 过 去 的 问题 。 举 个 例子 , 一 个 电影 场景 
分 类 器 无 法 使 用 神经 网 络 根据 过 去 场景 分 类 当前 场景 。 
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RNN 的 设计 目的 就 是 解决 这 一 问题 。 与 卷 积 神经 网 络 不 同 ，RNN 具 有 环 状 结构 ， 可 以 使 信 
息 得 以 维持 。 


RNN 每 次 处 理 一 个 时 序 输入 ， 更 新 一 种 向 量 状态 ， 该 向 量 含有 序列 中 所 有 过 去 的 元 素 。 
图 6-1 展 示 了 一 个 输入 为 X,， 输 出 为 0, 的 神经 网 络 。 




















图 6-1 一 个 含有 内 部 环 的 RNN 


S 是 网 络 中 的 一 个 向 量 状态 ， 可 以 视 为 系统 的 一 种 记忆 模式 。 它 含有 输入 序列 中 所 有 之 前 的 
元 素 中 的 信息 。 男 一 方面 ， 图 中 的 循环 使 得 信息 可 以 由 网 络 中 的 每 一 步 移动 到 下 一 步 。 














6.2 RNN 的 工作 机 制 
状态 癌 量 S, 由 当前 输入 和 之 前 的 状态 向 量 通过 矩阵 U 和 计算 。 
S,;=f(U + X,-W-*S,) 
/是 一 个 非 线性 函数 ,与 tanh 和 ReLU 类 似 。 可 以 看 到 ,函数 中 的 两 项 要 先 求 和 ,然后 被 处 理 。 
最 后 ，0, 是 网 络 输 出 ， 由 和 矩阵 计算 得 来 。 


OFV: S, 

















6.3 RNN 的 展开 


图 6-2 在 互 异 、 离 散 时 间 的 整个 输入 序列 上 展开 网 络 结构 ， 获 得 RNN 的 一 种 展开 形式 。 从 图 
中 可 以 清晰 地 看 出 , 这 种 结构 与 典型 的 多 层 神经 网 络 不 同 , 因为 典型 的 多 层 神经 网 络 在 每 一 层 使 
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用 不 同 的 参数 ;而 RNN 在 每 个 时 刻 使 用 的 参数 均 相 同 ， 即 VU、V 和 到 。 


的 确 ，RNN 在 每 个 时 刻 、 对 同一 序列 的 不 同 输入 执行 同样 的 运算 。 由 于 共享 了 相同 的 参数 ， 
RNN 极 大 地 减少 了 网 络 在 训练 过 程 中 需要 学 习 的 参数 数量 ， 也 因此 缩短 了 网 络 训练 时 间 。 

从 RNN 的 展开 形式 看 , 很 显然 , 我 们 只 需要 对 反 向 传播 算法 做 一 些微 小 的 改变 , 就 可 以 对 这 
种 网 络 进行 训练 。 

实际 上 ， 由 于 参数 在 每 个 时 刻 都 是 共享 的 ， 所 以 计算 出 的 梯度 不 仅 依赖 于 当前 运算 , 还 与 之 
前 的 运算 有 关 。 

例如 ， 如 果 要 计算 Ct = 4 时 刻 的 ) 梯度 ， 必 须 将 计算 出 的 梯度 反 向 传播 3 个 时 刻 ， 然 后 对 
获得 的 所 有 梯度 求 和 。 实 际 上 ， 整 个 输入 序列 一 般 被 视 为 训练 集 的 一 个 单个 元 素 。 因 此 ， 如 果 总 
误差 是 所 有 时 刻 ( 输入 序列 中 的 每 个 元 素 ) 误差 的 简单 求 和 , 那么 总 误差 梯度 就 是 每 个 时 刻 误差 
梯度 的 和 。 


这 个 过 程 称 为 沿 时 间 反 向 传播 。 
















































































图 6-2 RNN 的 展开 形式 


6.4 梯度 消失 问题 
在 反 向 传播 算法 中 ， 权 重 是 根据 梯度 误差 按照 比例 调整 的 。 梯 度 的 计算 需要 注意 以 下 几 点 。 
O 如 果 权 重 很 小 ， 梯 度 可 能 会 “消失 ”， 即 梯度 信号 太 小 以 至 于 学 习 变 得 很 慢 甚至 停止 。 这 
种 现象 经 常 称 为 梯度 消失 。 
O 如 果 和 矩阵 中 的 权重 过 大 ， 可 能 会 因 梯 度 过 大 而 导致 学 习 不 收敛 。 这 种 现象 通常 称 为 梯度 
爆炸 。 
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梯度 的 消失 -爆炸 问题 也 会 影响 RNN。 实 际 上 ，BPTT 算 法 会 展开 RNN， 使 其 变 成 一 个 很 深 
的 前 馈 神 经 网 络 。RNN 网 络 的 时 序 不 能 太 长 就 是 出 于 这 个 原因 。 如 果 梯 度 在 数 层 之 后 开始 消失 或 
爆炸 ， 网 络 就 不 能 学 习 数据 之 间 比 较 高 的 时 间距 离 关 系 。 


图 6-3 解 释 了 该 现象 的 组 织 关系 。 被 计算 并 反 向 传播 的 梯度 在 每 个 时 刻 都 趋向 于 减少 〈 或 增 
加 )。 在 一 定数 量 的 时 刻 后 ， 梯 度 收敛 为 0 〈 或 爆炸 为 无 穷 大 )。 
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图 6-3 RNN 中 的 梯度 消失 问题 


为 解决 梯度 消失 问题 ， 人 们 为 基本 的 RNN 模 型 提出 了 几 个 扩展 。 例 如 ,其 中 一 个 扩展 模型 称 
为 长 短期 记忆 (Long Short Term Memory, LSTM ) 网 络 ， 我 们 将 在 下 一 节 讲 解 该 模型 。 








6.5 LSTM 网 络 


长 短期 记忆 是 一 种 特殊 的 循环 神经 网 络 架 构 ， 最早 由 赛 普 : 霍 克 赖 特 和 于 尔 根 * 施 密 德 胡 伯 
在 1997 年 提出 。 这 种 类 型 的 神经 网 络 是 在 深度 学 习 环 境 下 提出 的 , 因为 它 不 受 梯度 消失 问题 的 影 
响 ， 且 结果 和 性 能 非常 优秀 。 基 于 LSTM 的 网 络 对 于 时 序数 据 的 预测 和 分 类 问题 效果 十 分 理想 ， 
正在 逐渐 取代 传统 方法 ， 将 很 多 问题 的 解决 方案 TRE AI BR 


LSTM 网 络 由 许多 互相 连接 的 元 胞 (LSTM 块 ) 组 成 ， 如 图 6-4 所 示 。 每 个 LSTM 块 包含 三 种 

类 型 的 门 : 输入 门 、 输 出 门 和 遗忘 门 ， 分 别 实现 对 元 胞 记忆 的 写 、 读 和 重 置 函数 。 这 些 门 并 不 是 

二 元 的 ， 而 是 模拟 的 。( 一 般 由 sigmoid 类 激活 函数 映射 到 区 间 [0, 1] 生 成 ， 0 代表 全 部 抑制 ，1 代 表 
全 部 激活 。) 


这 些 门 的 存在 使 LSTM 元 胞 可 以 记忆 不 确定 时 间 的 信息 。 SER E.P BIBUNT A BL, 
该 元 胞 会 保持 前 面 的 状态 ; 如 果 当 前 状态 被 启动 ， 那 么 该 状态 将 会 和 输入 值 合 并 。 顾 名 思 义 ， 遗 
忘 门 负责 重 置 元 胞 当前 状态 ( 当 其 值 被 置 为 0)， 输 出 门 决 定 是 否 将 该 元 胞 中 的 值 输出 。 
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记忆 元 胞 记忆 元 胞 
输 入 输 出 











输入 门 输出 门 











图 6-4 LSTM 元 胞 框图 





6.6 RNN 图 像 分 类 器 
下 面 介绍 一 种 包含 LSTM 块 的 图 像 分 类 循环 模型 实现 。 我 们 使 用 著名 的 MNIST 数 据 





o 


我 们 实现 的 模型 包含 一 个 LSTM 层 ， 紧 跟 一 个 降 维 求 平 均 操 作 , 再 加 一 个 softmax 层 ,如 图 6-5 


所 示 。 




















图 6-5 RNN 架 构 中 的 数据 流 
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下 面 的 代码 计算 了 一 个 张 量 中 所 有 维度 内 元 素 的 均值 ， 并 将 input_tensor 治 
着 数 轴 中 给 定 的 维度 降 维 。 如 果 keep_dims 的 值 不 为 Lrue， 张 量 的 值 会 随 着 
数 轴 上 的 每 一 项 减 1。 如 果 keep_dim 为 true,， 那么 被 降低 的 维度 会 以 长 度 1 被 
保持 。 


tf.reduce mean(input tensor, axis=None, \ 
keep dims-False, name-None, reduction, indices-None) 


D 如 果 数 轴 中 没有 条 目 ， 所 有 维度 都 会 被 约 减 ， 然 后 返回 一 个 只 含有 一 个 元 素 的 
KE, 
例如 : 
Tz 
[I2 724 
tf£.reduce_mean (x) 


] 
1] 
tf.reduce_mean (x, 0) 
tf.reduce mean(x,1) 





因此 ， 如 果 输 入 序列 为 xo, x1,…, xm， 那 么 LSTM 层 中 的 记忆 元 胞 会 生成 一 个 表示 序列 


ho, hy, 7, hsc 


B 


Wldropout, RITER ERA PRIE o 


> 


这 个 表示 序列 会 对 所 有 时 间 步 取 均 值 , 最 终 的 输出 表示 为 h。 最 后 , 这 个 表示 会 被 馈 给 softmax 
其 目标 是 将 输入 序列 与 类 标签 对 应 。 
下 面 开始 实现 该 模型 。 首 先 和 通常 一 样 ， 导 入 所 有 依赖 : 


import tensorflow as tf 
from tensorflow.contrib import rnn 


导 人 的 rnn 和 rnn_cel1 为 TensorFlow 类 ， 描 述 如 下 。 





rnn_cell 模 型 提供 了 一 系列 常用 的 基本 RNN 元 胞 ， 如 LSTM 和 一 系列 操作 符 ， 可 以 为 输入 





THE 


然后 使 用 下 述 库 载 人 MNIST 数 据 集 : 


from tensorflow.examples.tutorials.mnist import input_data 
mnist = input_data.read_data_sets("/tmp/data/", one_hot=True) 


从 网 络 上 下 载 数据 集 可 能 需要 几 分 钟 时 间 。 
要 使 用 循环 神经 网 络 分 类 图 像 , 必须 将 每 个 图 像 视 为 一 个 像素 序列 。 由 于 MNIST 图 像 的 形状 








为 28 x 28 像 素 ， 接 下 来 对 每 个 样本 都 要 处 理 28 个 时 间 步 的 28 个 序列 : 


MNIST data input (image shape: 28x28) 
n input = 28 
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the timesteps 

n_steps = 28 

The number of features in the hidden layer: 
n_hidden = 128 

MNIST total classes (0-9 digits) 

n_classes = 10 


下 面 定义 学 习 过 程 中 要 使 用 的 参数 : 





learning_rate = 0.001 
training_iters = 100000 
batch_size = 128 
display_step = 10 


将 输入 数据 (图像 ) 定义 为 x。 该 张 量 的 数据 类 型 设置 为 float ， 形 状 为 [None, n. steps, 
n_input]。None 人 参数 代表 该 张 量 中 可 以 载 人 任意 数量 的 图 像 : 

x = tf.placeholder("float", [None, n steps, n input]) 

然后 为 x 变量 中 输入 的 图 像 的 真实 标签 定义 占 位 符 变 量 。 该 占 位 符 变量 的 形状 为 None, 
n_classes]l ， 意 为 该 变量 可 以 承载 任意 数量 的 标签 ， 每 个 标签 是 长 度 为 n_classes 的 向 量 。 该 
例 中 ，n_classes 为 10: 



































y = tf.placeholder("float", [None, n classes]) 
weights - ( 
'out': tf.Variable(tf.random normal([n hidden, n classes])) 
} 
biases = { 
'out': tf.Variable(tf.random normal([n classes])) 





} 

使 用 RNN 函 数 定义 网 络 : 

def RNN (x, weights, biases): 

对 输入 数据 x 的 形状 设置 直接 和 RNN 函 数 的 要 求 对 应 。 注 意 以 下 问题 : 


口 当前 的 输入 数据 为 (batch_size, n steps, n input); 

口 函数 要 求 的 形状 是 一 个 长 度 为 n_steps 的 张 量 列表 , 其 中 每 个 张 量 的 形状 为 (batch_size， 
n_input) o 

为 实现 这 一 要 求 ， 需 要 对 输入 张 量 x 进 行 一 些 变形 。 第 一 个 操作 是 对 输入 数据 的 转 置 重 排 : 

x = tfitranspose(x, I1, 0, 21) 


该 操作 将 当前 形状 为 (128，28，28) 的 输入 数据 转 置 ， 返 回 一 个 (28，28，128) 的 张 量 。 
然后 ， 对 x 进行 变形 : 
































x = tf.reshape(x, [-1, n input]) 
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该 操作 返回 一 个 n_steps x batch_size、n_input 张 量 。 接 下 来 ,分 割 张 量 x 以 获取 函数 
要 求 的 长 度 为 n_steps、 元 素 形 状 为 (batch_size，n_input) 的 张 量 : 


x = tf.split (axis=0, num or size splits-n steps, value=x) 
要 定义 我 们 的 循环 神经 网 络 ， 需 要 执行 以 下 步骤 。 


(1) 定义 一 个 LSTM 元 胞 : 使 用 BasicLsTMCell 方 法 可 以 定义 一 个 LSTM 循 环 网 络 元 胞 。 其 中 
的 forget_bias 参 数 被 设置 为 1 .0， 以 减 小 训练 开始 时 的 遗忘 比例 。 





lstm cell = rnn cell.BasicLSTMCell (n_hidden, forget_bias=1.0) 


(2) 构建 网 络 : cnn () 操 作 在 给 定 的 时 间 步 中 创建 计算 节点 。 


outputs, states = rnn. static rnn (lstm_cell, x,\ 
dtype-tf.float32) 


该 操作 返回 LSTM 元 胞 的 输出 ， 此 处 的 参数 解释 如 下 : 


O outputs 为 一 个 输出 列表 ( 其 中 每 个 元 素 对 应 一 个 输入 )， 长 度 为 n_steps; 
O states 为 元 胞 的 最 终 状 态 。 


RNN 函 数 的 结果 是 一 个 长 度 为 10 的 张 量 ， 用 于 确定 输入 图 像 属于 10 个 类 中 的 哪 一 个 











return tf.matmul(outputs[-1], weights['out']) + biases['out'] 
4E X. cost PACA TUM as A DG PR ERLoptc imi zer: 


pred - RNN(x, weights, biases) 


使 用 softmax_ Cross _entropy_with_logits 度 量 模型 性 能 , 并 使 用 reduce_mean 求 所 有 
PUREE SUNSET LE 


New: cost z^ 
tf.reduce mean(tf.nn.softmax cross entropy with logits(logits-pred,^ 
labelszy)) 


然后 使 用 AdamOpt imizer iE / MESZ SUH, BUE ASA, MEAS RETO: 














optimizer = tf.train.AdamOptimizerN 
(learning_rate=learning_rate) .minimize(cost) 


需要 在 计算 过 程 中 显示 的 准确 率 : 


correct pred = tf.equal(tf.argmax(pred,1), tf.argmax(y,1) ) 
accuracy = tf.reduce mean(tf.cast(correct pred, tf.float32) ) 


然后 ， 初 始 化 所 有 变量 








init = tf.global variables initializer() 
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现在 可 以 开始 训练 了 。 首 先 ， 创建 会 话 ， 以 进行 运算 : 
with tf.Session() 


sess.run(init) 
step = 1 


构建 批 数据 集 ， 直 到 达到 训练 的 最 大 迭代 次 数 : 


while step * batch size < training_iters: 


as sess: 








batch x, batch y = mnist.train.next batch(batch, size) 
将 数据 变形 ， 得 到 28 个 序列 ， 每 个 序列 含有 2 8 个 元 素 : 
batch x = batch x.reshape((batch size, n steps, n input)) 


运行 过 程 中 采用 时 序 的 方式 访问 数据 , 可 以 将 数据 分 成 许多 小 块 , 每 个 小 块 的 大 小 为 我 们 定 


义 的 批 大 小 。 然后， 取 一 


一 块 数据 馈 


从 优化 器 ,并 计算 准确 度 和 误差 。 对 每 一 块 新 的 数据 重复 该 过 


程 。 在 此 过 程 中 ,人 馈 给 网 络 的 数据 越 多 ， 


sess.run(optimizer, 


2 


if step $ 





feed dict-í(x: 


准确 率 就 越 高 : 


batch x, 








使 用 以 下 代码 计算 模 


y: batch_y}) 


display_step == 0: 


型 准确 率 : 


acc = sess.run(accuracy, feed dict={x: batch x, 


另 一 方面 ， 可 以 由 以 下 代码 计算 网 络 误差 值 : 


feed_dict={x: 


y: batch_y}) 


loss = sess.run(cost, 


然后 ， 用 如 下 代码 显示 准确 率 : 


print("Iter " + str(step*batch size) 
"(:.6fj".format(loss) + ", 
"(:.5£)".format (acc) ) 
step += 1 
print ("Optimization Finished!") 


batch_x, y: batch_y}) 





Minibatch Loss= " 
Training Accuracy- " 


poty 


+\ 
+\ 











最 后 ， 在 图 像 的 一 个 子 集 (或 批 数据 集 ) 上 测试 该 RNN 模 型 : 
test_len = 128 

test data = mnist.test.images[:test_len]\ 

.reshape((-1, n steps, n input)) 

test label - mnist.test.labels[:test len] 
print ("Testing Accuracy:",\ 

sess.run (accuracy, feed_dict={x: test_data, y: test_label})) 
运行 结果 输出 如 下 : 

>>> 


Extracting /tmp/data/train-images-idx3-ubyte.gz 
Extracting /tmp/data/train-labels-idxl-ubyte.gz 
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Extracting /tmp/data/ti0k-images-idx3-ubyte.gz 
Extracting /tmp/data/t10k-labels-idxl-ubyte.gz 




















Iter 1280, Minibatch Loss= 1.861236, Training Accuracy= 0.35156 
Iter 2560, Minibatch Loss= 1.457468, Training Accuracy= 0.51562 
Iter 3840, Minibatch Loss= 1.092437, Training Accuracy= 0.64062 
Iter 5120, Minibatch Loss= 0.857512, Training Accuracy= 0.73438 
Iter 6400, Minibatch Loss= 0.678605, Training Accuracy= 0.78125 
Iter 7680, Minibatch Loss= 1.139174, Training Accuracy= 0.61719 
Iter 8960, Minibatch Loss= 0.797665, Training Accuracy= 0.75781 
Iter 10240, Minibatch Loss= 0.640586, Training Accuracy= 0.81250 
Iter 11520, Minibatch Loss= 0.379285, Training Accuracy= 0.90625 
Iter 12800, Minibatch Loss= 0.694143, Training Accuracy= 0.72656 
Iter 85760, Minibatch Loss= 0.110027, Training Accuracy= 0.96094 
Iter 87040, Minibatch Loss= 0.042054, Training Accuracy= 0.98438 
Iter 88320, Minibatch Loss= 0.110460, Training Accuracy= 0.96875 
Iter 89600, Minibatch Loss= 0.098120, Training Accuracy= 0.97656 
Iter 90880, Minibatch Loss= 0.081780, Training Accuracy= 0.96875 
Iter 92160, Minibatch Loss= 0.064964, Training Accuracy= 0.97656 
Iter 93440, Minibatch Loss= 0.077182, Training Accuracy= 0.96094 
Iter 94720, Minibatch Loss= 0.187053, Training Accuracy= 0.95312 
Iter 96000, Minibatch Loss= 0.128569, Training Accuracy= 0.96094 
Iter 97280, Minibatch Loss= 0.125085, Training Accuracy= 0.96094 
Iter 98560, Minibatch Loss= 0.102962, Training Accuracy= 0.96094 
Iter 99840, Minibatch Loss= 0.063063, Training Accuracy= 0.98438 
Optimization Finished! Testing Accuracy: 0.960938 





>>> 


RNN 图 像 分 类 器 源 代 码 


前 面 介绍 的 示例 源 代码 如 下 所 示 : 


import tensorflow as tf 

from tensorflow.contrib import rnn 

from tensorflow.examples.tutorials.mnist import input_data 
mnist = input_data.read_data_sets("/tmp/data/", one_hot=True) 


learning_rate = 0.001 
training_iters = 100000 
batch_size = 128 
display_step = 10 


n_input = 28 
n_steps = 28 
n_hidden = 128 
n_classes = 10 


x = tf.placeholder("float", [None, n steps, n input]) 
y = tf.placeholder("float", [None, n classes]) 


weights - ( 
'out': tf.Variable(tf.random normal([n hidden, n classes]) 


) 
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} 
biases = { 
'out': tf.Variable(tf.random normal([n classes])) 


def RNN(x, weights, biases): 
x - tf.transpose(x, [1, 0, 2]) 
x - tf.reshape(x, [-1, n input]) 
x - tf.split(axis-0, num or size splits-n steps, value-x) 
lstm cell = rnn cell.BasicLSTMCell(n hidden, forget bias-1.0) 
outputs, states - rnn.rnn(lstm cell, x, dtype-tf.float32) 
return tf.matmul(outputs[-1], weights['out']) + biases['out'] 


pred - RNN(x, weights, biases) 

New: cost z^ 

tf.reduce mean(tf.nn.softmax cross entropy with logits(logits-pred,^ 
labels=y) ) 

optimizer = tf.train.AdamOptimizer\ 

(learning_rate=learning_rate) .minimize(cost) 





correct_pred = tf. equal(tf.argmax(pred,1), tf.argmax(y,1) ) 
accuracy = tf.reduce mean(tf.cast(correct pred, tf.float32) ) 


init = tf.global, variables initializer() 
with tf.Session() as sess: 
sess.run(init) 


step = 1 

while step * batch_size < training_iters: 
batch_x, batch_y = mnist.train.next_batch(batch_size) 
batch_x batch x.reshape((batch size, n steps, n input)) 





sess.run(optimizer, feed dict-í(x: batch x, y: batch y}) 
if step $ display step -- 
acc = sess.run (accuracy, feed dict-(x: batch x, y: batch yJ) 
loss = sess.run(cost, feed dict-(x: batch x, y: batch y}) 
print ("Iter "«str(step*batch size) + ", Minibatch Loss= "+\ 
"(:.6f)".format(loss) + ", Training Accuracy= " +\ 
"(2.52)", f6rmat (acec)) 
step += 1 
print ("Optimization Finished!") 


test_len = 128 

test data = mnist.test.images[:test_len].reshape((-1,n_steps, \ 
n_input) ) 

test_label = mnist.test.labels[:test_len] 

print ("Testing Accuracy:",\ 

Sess.run(accuracy, feed_dict={x: test data, y: test label))) 


6.7 双向 RNN 


双向 RNN 的 基本 概念 是 ，t 时 刻 的 输出 可 能 会 同时 依赖 于 序列 前 面 和 后 面 的 元 素 。 为 实现 这 
一 点 ， 需 要 将 两 个 RNN 的 输出 混合 : 其 中 一 个 在 一 个 方向 上 执行 ， 另 一 个 在 相反 方向 上 运行 。 
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该 网 络 将 普通 RNN 的 神经 元 分 割 为 两 个 方向 ， 其 中 一 个 用 于 正 时 间 方 向 〈 前 向 状态 )， 另 一 
个 用 于 负 时 间 方向 〈《 反 向 状态 )。 使 用 这 种 架构 ， 输 出 层 可 以 同时 获得 过 去 和 未 来 状态 的 信息 。 


B-RNN 的 展开 架构 如 图 6-6 所 示 。 





图 6-6 ”双向 RNN 的 展开 形式 








现在 看 看 如 何 实现 一 个 图 像 分 类 B-RNN。 首 先导 和 需要 的 库 。 注 意 ，rnn 和 trnn_cel1 为 
TensorFlow 库 : 











import tensorflow as tf 
from tensorflow.contrib import rnn 
import numpy as np 


网 络 为 MNIST 图 像 做 分 类 ， 所 以 需要 先 载 人 该 数据 集 : 


from tensorflow.examples.tutorials.mnist import input_data 
mnist = input_data.read_data_sets("/tmp/data/", one_hot=True) 


然后 定义 学 习 参 数 : 





learning_rate = 0.001 
training_iters = 100000 
batch_size = 128 
display_step = 10 


接 下 来 设置 网 络 参数 : 
n_input = 28 
n_steps = 28 


n_hidden = 128 
n_classes = 10 
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接着 设置 占 位 符 ， 用 于 馈 给 我 们 的 网 络 。 首 先 ， 为 输入 图 像 定 义 一 个 占 位 符 变 量 。 这 使 得 我 
们 能 够 改变 输入 到 TensorFlow 图 中 的 图 像 。 数 据 类 型 设置 为 float ， 张 量 的 形状 为 (None, 
n_steps，n_input]。 其 中 ，None 代 表 该 张 量 中 可 以 载 入 任意 数量 的 图 像 : 


x = tf.placeholder("float", [None, n_steps, n_input]) 


然后 设置 第 二 个 占 位 符 ， 表 示 输 入 到 占 位 符 变量 x 中 图 像 的 标签 。 该 占 位 符 变量 的 形状 被 设 
置 为 [None，n_classes] ， 表 示 该 张 量 可 以 载 和 任意 数量 的 标签 ， 且 每 个 标签 为 长 度 为 
num_classes 的 向 量 。 此 处 num_classes 取 10: 

















y = tf.placeholder("float", [None, n classes]) 


第 一 个 需要 优化 的 变量 是 权重 weights。 此 处 被 定义 为 一 个 TensorFlow 变 量 ， 需 要 被 初始 化 
为 平均 分 布 的 随机 值 ， 且 形状 为 [2*n_hiddqen，n_classes]。 


以 下 是 weignts 的 定义 : 





























weights = { 
'out': tf.Variable(tf.random normal([2*n hidden, n classes])) 


} 
然后 定义 对 应 的 偏差 biases: 





biases = { 
'out': tf.Variable(tf.random normal([n classes])) 


} 
(FA PA BiRNNPAAL, XE X weightsh^lllshyoiases: 








def BiRNN(x, weights, biases): 


为 实现 这 一 定义 ,使 用 以 下 语句 对 张 量 进行 变形 : 





x = tf.transpose(x, [1, 0, 2]) 
x = tf.reshape(x, [-1, n input]) 
x = tf.split(axis-0, num or size splits-n steps, value=x) 


不 用 考虑 前 一 个 模型 ， 此 处 定义 两 种 类 型 的 LSTM 元 胞 : 前 向 元 胞 和 后 向 元 胞 。 


lstm fw cell = rnn cell.BasicLSTMCell(n hidden, forget_bias=1.0) 
lstm bw cell = rnn cell.BasicLSTMCell(n hidden, forget bias-1.0) 


然后 导入 rnn.bidirectional_rnn() 类 构建 双向 网 络 。 和 无 向 的 情况 类 似 ， 
rnn.bidirectional_rnn() 将 最 终 的 eas 出 作为 输入 ， 构 建 深 度 级 联 的 独立 前 后 向 RNN: 











try: 
outputs, _, _ = rnn. static_bidirectional_rnn 
(lstm fw cell, lstm_bw_cell, x,dtype-tf.float32) 
except Exception: 
outputs = rnn. static bidirectional rnn 
(lstm fw cell, lstm bw cell, x,dtype-tf.float32) 
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前 向 和 后 向 元 胞 的 input_size 必 须 一 致 。 注 意 ， 其 输出 必须 符合 以 下 格式 : 


[time] [batch] [cell_fw.output_size + cell bw.output size] 
BiRNN 函 数 返 回 一 个 输出 张 量 ， 用 以 确定 输入 图 像 属于 10 个 类 中 的 哪 一 个 : 
return tf.matmul(outputs[-1], weights['out']) + biases['out'] 


BiRNNPR ACA IE [HL (ELE PEA BEE A predikE : 





pred = BiRNN(x, weights, biases) 








DR AARP KAYE I RY LAE, ER Ay i Ed HE E GAT E RAA RE PPE Dr 
标准 。 

如 果 要 用 交叉 灶 指 导 网 络 的 优化 过 程 ， 需 要 单一 的 标量 值 。 所 以 ， 只 要 简单 将 所 有 被 分 类 图 
IRRIZ LRR EE (t£.reduce_mean ) 即 可 : 











New: cost =\ 
tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits(logits=pred, \ 
labels=y) ) 


将 得 到 的 误差 值 用 optimizez 变 量 最 小 化 。 此 处 使 用 Adaamoptimizer， 这 是 梯度 下 降 的 一 
种 高 级 形式 : 








optimizer = tf.train.AdamOptimizer\ 
(learning_rate=learning_rate) .minimize(cost) 


加 入 评价 模型 性 能 的 指标 ,以 显示 训练 过 程 的 进度 。 这 是 一 个 布尔 向 量 , 记录 模型 预测 类 别 
是 否 和 图 像 的 真实 类 别 相同 : 












































correct pred = tf.equal(tf.argmax(pred,1), tf.argmax(y,1)) 


correct_predq 变 量 用 于 计算 分 类 准确 率 。 首 先 将 布尔 变量 的 类 型 转换 为 float ,这样 false 
变 成 了 0，true 变 成 了 1。 然 后 计算 这 些 数 的 平均 值 : 





accuracy = tf.reduce mean(tf.cast(correct pred, tf.float32) ) 
所 有 变量 在 开始 优化 前 都 要 先 初 始 化 : 

init = tf.global variables initializer() 

然后 创建 session 会 话 ， 执 行 计算 图 : 

with tf.Session() as sess: 


sess.run(init) 
step = 1 


在 会 话 中 ， 取 一 批 训练 样本 : 


while step * batch_size < training_iters: 





TT 
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batch_x 变 量 现在 含有 训练 图 像 的 一 个 子 集 ，batch_y 是 这 批 图 像 对 应 的 真实 标签 : 


batch x, batch y = mnist.train.next batch(batch, size) 
batch x - batch x.reshape((batch size, n steps, n input)) 


将 该 批 集 馈 给 feedq_daict ， 并 正确 设置 占 位 符 变 量 的 名 称 。 然 后 ， 使 用 sees .run 运 行 优 
KAX: 








sess.run (optimizer, feed_dict={x: batch_x, y: batch_y}) 
if step % display_step == 


计算 这 些 数据 集 上 的 准确 率 和 1loss 值 : 


acc = sess.run(accuracy, \ 
feed_dict={x: batch_x, y: batch_y}) 
loss = sess.run(cost, \ 
feed_dict={x: batch_x, y: batch_y}) 
print("Iter " + str(step*batch size) +\ 
", Minibatch Loss= " +\ 
"{:.6£}".format (loss) + ", Training Accuracy= " +\ 
"Ii.5fp".formatiacc)) 





step «- 1 
print("Optimization Finished!") 


在 训练 会 话 的 末尾 ， 取 一 批 测试 样本 : 


test_len = 128 
test data = mnist.test.images\ 

[:test_len].reshape((-1, n_steps, n_input) ) 
test_label = mnist.test.labels[:test_len] 


最 后 ， 计 算 并 显示 测试 集 上 的 准确 率 : 








print ("Testing Accuracy:",\ 
sess.run (accuracy, feed_dict={x: test data, y: test label))) 


下 面 给 出 部 分 输出 。 此 处 可 以 可 视 化 批 数据 集 上 计算 出 的 1oss 值 和 准确 率 : 





Successfully downloaded train-images-idx3-ubyte.gz 9912422 bytes. 
Extracting /tmp/data/train-images-idx3-ubyte.gz 
Successfully downloaded train-labels-idxl-ubyte.gz 28881 bytes. 
Extracting /tmp/data/train-labels-idxl-ubyte.gz 
Successfully downloaded t10k-images-idx3-ubyte.gz 1648877 bytes. Extracting 
tmp/data/t10k-images-idx3-ubyte.gz 
uccessfully downloaded t10k-labels-idxl-ubyte.gz 4542 bytes. 
xtracting /tmp/data/t10k-labels-idxl-ubyte.gz 
ter 1280, Minibatch Loss- 1.877825, Training Accuracy- 0 
ter 2560, Minibatch Loss- 1.582133, Training Accuracy- 0.45312 
ter 3840, Minibatch Loss- 1.172375, Training Accuracy- 0.53125 
ter 5120, Minibatch Loss- 0.942408, Training Accuracy- 0.67188 
ter 6400, Minibatch Loss- 0.678984, Training Accuracy- 0.73438 
1 0 
0 0 





.34375 


ter 7680, Minibatch Loss- 1.089620, Training Accuracy- 0.64844 
ter 8960, Minibatch Loss- 0.658389, Training Accuracy- 0.79688 


HHHHHHH WON 
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Iter 10240, Minibatch Loss= 0.576066, Training Accuracy= 0.82031 
Iter 11520, Minibatch Loss= 0.404379, Training Accuracy= 0.92188 
Iter 12800, Minibatch Loss= 0.627313, Training Accuracy= 0.79688 
Iter 14080, Minibatch Loss= 0.447121, Training Accuracy= 0.87500 
Iter 90880, Minibatch Loss= 0.048776, Training Accuracy= 1.00000 
Iter 92160, Minibatch Loss= 0.096100, Training Accuracy= 0.98438 
Iter 93440, Minibatch Loss= 0.059382, Training Accuracy= 0.98438 
Iter 94720, Minibatch Loss= 0.088342, Training Accuracy= 0.97656 
Iter 96000, Minibatch Loss= 0.083945, Training Accuracy= 0.98438 
Iter 97280, Minibatch Loss= 0.077618, Training Accuracy= 0.97656 
Iter 98560, Minibatch Loss= 0.141791, Training Accuracy= 0.93750 
Iter 99840, Minibatch Loss= 0.064927, Training Accuracy= 0.98438 
Optimization Finished! 





最 后 ， 在 测试 集 上 计算 出 的 准确 率 如 下 : 





Testing Accuracy: 0.984375 


双向 RNN 源 代码 
下 面 给 出 前 面 实现 的 双向 RNN 的 完整 源 代码 : 


import tensorflow as tf 
from tensorflow.contrib import rnn 
import numpy as np 


from tensorflow.examples.tutorials.mnist import input_data 
mnist = input_data.read_data_sets("/tmp/data/", one_hot=True) 


learning_rate = 0.001 
training_iters = 100000 
batch_size = 128 
display_step = 10 


n_input = 28 
n_steps = 28 
n_hidden = 128 
n_classes = 10 


x = tf.placeholder("float", [None, n steps, n input]) 
y = tf.placeholder("float", [None, n classes]) 


weights - ( 
'out': tf.Variable(tf.random normal([2*n hidden, n classes])) 


} 
biases = { 

'out': tf.Variable(tf.random normal([n classes])) 
} 


def BiRNN(x, weights, biases): 
x = tf.transpose(x, [1, 0, 2]) 
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x = tf.reshape (x, [-1, n_input]) 
x = tf.split (axis=0, num_or_size_splits=n_steps, value=x) 
lstm fw cell = rnn cell.BasicLSTMCell(n hidden, forget_bias=1.0) 
lstm bw cell = rnn cell.BasicLSTMCell(n hidden, forget bias-1.0) 
try: 
outputs, _, _ = rnn.static bidirectional rnn(lstm fw cell," 
lstm bw cell, x, dtype-tf.float32) 





except Exception: 
# Old TensorFlow version returns output not states 
outputs = rnn.bidirectional rnn(lstm fw cell, lstm bw cell," 
x, dtype-tf.float32) 
return tf.matmul(outputs[-1], weights['out']) + biases['out'] 


pred - BiRNN(x, weights, biases) 

New: cost z^ 

tf.reduce mean(tf.nn.softmax cross entropy with logits(logits-pred,^ 
labels=y) ) 

optimizer =\ 





tf.train.AdamOptimizer(learning rate-learning rate).minimize(cost) 
correct, pred = tf.equal(tf.argmax(pred,1), tf.argmax(y,1) ) 
accuracy - tf.reduce mean(tf.cast(correct pred, tf.float32)) 
init = tf.global, variables initializer() 
with tf.Session() as sess: 
sess.run(init) 
step - 1 
while step * batch size « training iters: 
batch x, batch y - mnist.train.next batch(batch size) 
batch x - batch x.reshape((batch size, n steps, n input)) 
sess.run(optimizer, feed dict-í(x: batch x, y: batch y)) 
if step $ display step -- 
acc = sess.run(accuracy, feed dict={x: batch x, y: batch yJ) 
loss = sess.run(cost, feed dict={x: batch x, y: batch y}) 
print("Iter " + str(step*batch size) + ", Minibatch Loss=\ 
"+ "{:.6£}". format (loss) + ", Training Accuracy= " +\ 
"(3,52)". format (acc) ) 





step += 1 
print ("Optimization Finished!") 


test_len = 128 
test data = mnist.test.images[:test len].reshape((-1, n steps, 
n, input)) 
test label - mnist.test.labels[:test len] 
print ("Testing Accuracy:",\ 
sess.run (accuracy, feed_dict={x: test data, y: test label))) 


6.8 文本 预测 


基于 RNN 的 语言 计算 模型 成 为 当今 最 成 功 的 语言 建 模 技术 之 一 。 该 技术 可 以 方便 地 应 用 于 许 
多 任务 ， 包 括 自 动 语音 识别 和 机 顺 翻 译 等 。 


本 节 将 研究 RNN 模 型 如 何 应 用 在 一 个 具有 挑战 性 的 语言 处 理 任务 上 一 一 预测 文本 序列 的 下 





ini 
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一 个 单词 。 
感 兴 趣 的 读者 可 以 到 https://www.tensorflow.org/versions/r0.8/tutorials/recurrent/ 
index.html 找 到 本 例 的 完整 资料 。 
你 可 以 到 GitHub 上 的 TensorFlow 项 目 官方 页 面 ( https://github.com/tensorflow/models/tree/ 
master/tutorials/rnn/ptb ) 下 载 本 例 完整 代码 。 
需要 下 载 的 文件 如 下 。 


QO ptb_word_lm.py: 在 PTB 数 据 集 上 训练 模型 的 代码 
口 reader .py: 数据 集 读 取代 码 


本 节 只 展示 主要 思想 。 























6.8.1 数据 集 


这 里 使 用 的 数据 集 为 Penn Tree Bank (PTB) 语言 模型 数据 集 。 你 需要 从 Tomas Mikolov 的 
网 站 http://wwwi.fit.vutbr.cz/~imikolov/mnlm/simple-examples.tgz 下 载 该 数据 集 ， 并 解压 到 你 的 数据 
文件 夹 。 该 数据 集 包 含 929 000 个 训练 单词 、73 000 个 验证 单词 和 82 000 个 测试 单词 。 其 词汇 数 共 
有 10 000 个 ， 其 中 包括 句子 结尾 标识 符 和 一 个 特殊 符号 <unk> ， 用 于 表示 稀有 词汇 。 


一 般 说 来 ， 树 库 〈treebank ) 是 一 系列 句子 的 集合 ， 以 句法 注释 形式 组 织 ， 为 机 器 提供 可 读 
的 语言 学 文本 结构 信息 。 


























6.8.2 ARE 


困惑 度 是 用 来 度量 网 络 好 坏 的 一 种 单位 。 其 精确 定义 需要 用 很 复杂 的 数学 描述 , 但 基本 可 以 
视 为 模型 在 每 个 单词 后 面 的 平均 选择 数 。 如 果 考 虑 含有 大 约 100 万 单词 的 英语 口语 ， 那 么 当前 最 
好 的 网 络 模型 的 困惑 度 为 247。 用 这 个 数值 作为 每 个 单词 的 分 支 数 是 相当 大 的 。 

















6.83 PTB 模型 


PTB 模 型 由 PTBModel 类 实现 ， 可 以 在 ptb_word_lm.py 文 件 中 找到 该 类 。 下 面 分 析 基 本 的 
伪 代 码 。 


网 络 模型 包含 一 个 BasicLsTMCe11 元 胞 : 





lstm = rnn cell.BasicLSTMCell(lstm size) 
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该 网 络 的 记忆 状态 由 一 个 全 0 向 量 初始 化 。 数 据 被 分 批 处 理 ， 每 一 小 批 数 据 的 大 小 为 


batch_size: 





state = tf.zeros([batch size, lstm.state size]) 
每 个 被 分 析 的 单词 作为 句子 下 一 个 词 的 概率 计算 如 下 : 


probabilities = [] 
for current_batch_of_words in words_in_dataset: 


处 理 完 每 一 批 单词 之 后 ，state 的 值 都 会 更 新 一 次 : 





output, state = lstm(current batch of words, state) 
LSTM 的 输出 被 接着 用 于 预测 下 一 个 词 : 


logits = tf.matmul(output, softmax w) + softmax b 
probabilities.append(tf.nn.softmax(logits)) 
loss += loss function(probabilities, target words) 


loss functionPRZ fA sii /IME H b Hor] BOE OES. PK PRS TTS OEY RESP RT] 








6.8.4 ”运行 例 程 


PTB 模 型 可 以 支持 小 、 中 和 大 型 数据 集结 构 ， 其 中 小 型 模型 的 困惑 度 在 测试 集 上 会 低 于 120， 
大 型 模型 会 低 于 80。 即 便 如 此 ， 该 模型 的 训练 仍 会 耗费 数 小 时 。 


下 面 在 一 个 较 小 的 数据 集 上 执行 该 模型 。 只 需 在 命令 行 输入 以 下 语句 : 

















python ptb word lm --data path=/tmp/simple-examples/data/ --model small 
命令 中 的 路 径 是 你 之 前 下 载 的 PTB 数 据 集 的 解压 路 径 ， 此 处 为 /tmp/simple-examples/data/。 
在 8 小 时 、13 个 时 期 的 训练 后 ， 其 困惑 度 值 输出 如 下 : 


Epoch: 1 Learning rate: 1.000 

.004 perplexity: 5263.762 speed: 391 wps 
.104 perplexity: 837.607 speed: 429 wps 
.204 perplexity: 617.207 speed: 442 wps 
.304 perplexity: 498.160 speed: 438 wps 
.404 perplexity: 430.516 speed: 436 wps 
.504 perplexity: 386.339 speed: 427 wps 
.604 perplexity: 348.393 speed: 431 wps 
.703 perplexity: 322.351 speed: 432 wps 
.803 perplexity: 301.630 speed: 431 wps 
.903 perplexity: 282.417 speed: 434 wps 
Epoch: 1 Train Perplexity: 268.124 
Epoch: 1 Valid Perplexity: 180.210 
Epoch: 2 Learning rate: 1.000 
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.004 perplexity: 209.082 speed: 448 wps 
.104 perplexity: 150.589 speed: 437 wps 
.204 perplexity: 157.965 speed: 436 wps 
.304 perplexity: 152.896 speed: 453 wps 
.404 perplexity: 150.299 speed: 458 wps 
.504 perplexity: 147.984 speed: 462 wps 
.604 perplexity: 143.367 speed: 462 wps 
.703 perplexity: 141.246 speed: 446 wps 
.803 perplexity: 139.299 speed: 436 wps 
.903 perplexity: 135.632 speed: 435 wps 
Epoch: 2 Train Perplexity: 133.576 

Epoch: 2 Valid Perplexity: 143.072 
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Epoch: 12 Learning rate: 0.008 

.004 perplexity: 57.011 speed: 347 wps 
.104 perplexity: 41.305 speed: 356 wps 
.204 perplexity: 45.136 speed: 356 wps 
.304 perplexity: 43.386 speed: 357 wps 
.404 perplexity: 42.624 speed: 358 wps 
.504 perplexity: 41.980 speed: 358 wps 
.604 perplexity: 40.549 speed: 357 wps 
.703 perplexity: 39.943 speed: 357 wps 
.803 perplexity: 39.287 speed: 358 wps 
.903 perplexity: 37.949 speed: 359 wps 
Epoch: 12 Train Perplexity: 37.125 
Epoch: 12 Valid Perplexity: 123.571 
Epoch: 13 Learning rate: 0.004 

0.004 perplexity: 56.576 speed: 365 wps 
.104 perplexity: 40.989 speed: 358 wps 
.204 perplexity: 44.809 speed: 358 wps 
.304 perplexity: 43.082 speed: 356 wps 
.404 perplexity: 42.332 speed: 356 wps 
.504 perplexity: 41.694 speed: 356 wps 
.604 perplexity: 40.275 speed: 357 wps 
.703 perplexity: 39.673 speed: 356 wps 
.803 perplexity: 39.021 speed: 356 wps 
.903 perplexity: 37.690 speed: 356 wps 
Epoch: 13 Train Perplexity: 36.869 
Epoch: 13 Valid Perplexity: 123.358 
Test Perplexity: 117.171 


QC C (CR CLIE C 





Coe C C) CX CC £9 03 





6.9 小 结 


本 章 简单 介绍 了 RNN 模 型 。RNN 是 一 类 神经 网 络 ， 其 中 的 单元 直接 连接 成 环 。 因 此 ， 可 以 
利用 这 种 特性 处 理 时 序数 据 。 我 们 还 讲解 了 LSTM 架 构 。 该 架构 的 基本 思想 是 改善 RNN 架 构 ， 使 
其 拥有 更 明确 的 记忆 。 


LSTM 网 络 包含 特殊 的 隐藏 单元 ， 称 为 记忆 元 胞 ， 其 作用 是 长 时 间 记 忆 前 面 的 输入 。 这 些 元 
胞 在 每 个 时 刻 接 收 前 面 的 状态 和 网 络 当前 的 输入 数据 作为 输入 。 元 胞 将 这 些 输入 与 当前 的 记忆 内 
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容 相 结合 ,用 其 他 单元 的 门 机 制 确定 记忆 中 的 哪些 信息 要 删除 .哪些 信息 要 保留 。 人 们 证 明 ,LSTM 
在 长 期 依赖 学 习 方面 十 分 有 用 且 有 效 。 


于 是 ,我 们 针对 MNIST 数 据 集 图 像 分 类 问题 ， 实 现 了 两 个 循环 神经 网 络 模型 一 -LSTM 模 型 
和 双向 RNN 模 型 。 


























最 后 ， 我 们 展示 了 TensorFlow 如 何 完 成 “预测 字符 序列 中 下 一 个 字符 ”的 复杂 任务 。 


下 一 章 将 介绍 GPU 计算 的 一 些 基 本 问题 。 这 项 技术 实际 上 是 近年 来 深度 学 习 开 发 的 主要 切入 
点 。 我 们 将 介绍 GPU 的 主要 特性 ， 并 讲解 如 何在 GPU 上 部 署 TensorFlow。 








GPU 计算 








深度 神经 网 络 的 结构 十 分 均衡 , 所 以 网 络 的 每 个 层 中 , 数 以 千 记 的 人 工 神经 元 都 执行 相同 的 
计算 。 因 此 ，DNN 的 结构 非常 适合 高 效 的 GPU 计 算 。 


GPU 相 比 于 CPU 有 十 分 明显 的 优势 。GPU 拥 有 更 多 计算 单元 , 带宽 也 更 高 ,能 从 内 存 中 获取 


另外 ， 在 很 多 需要 大 量 计算 资源 的 深度 学 习 应 用 中 ，GPU 的 图 形 化 能 力 可 以 被 进一步 发 掘 ， 
用 于 加 速 运算 。 

本 章 包含 以 下 主题 : 
口 GPGPU 计 算 
口 GPGPU 的 历史 
QO CUDAHY 
口 GPU 编程 模型 
口 TensorFlow 中 GPU 的 设置 
口 TensorFlow 的 GPU 管理 
O 在 多 GPU 系统 上 分 配 单个 GPU 
口 使 用 多 个 GPU 











7.1 GPGPU 计算 
近 些 年 来 ， 人 们 才 开 始 注意 深度 学 习 的 发 展 ， 并 将 其 置 于 机 需 学 习 领 域 的 中 心 。 这 种 现象 出 
现 的 原因 有 很 多 。 


其 中 一 个 原因 一 一 也 许 是 主要 原因 一 一 当然 是 硬件 的 发 展 。 人 们 制造 出 了 新 的 处 理 器 ,如 图 
形 处 理 单元 ， 大 大 减少 了 训练 网 络 所 需 的 时 间 ， 将 训练 速度 提高 了 10~20 倍 。 


实际 上 , 由 于 网 络 中 每 个 神经 元 的 连接 权重 都 要 经 过 数值 计算 得 出 ,而 网 络 的 训练 过 程 就 是 
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对 权重 进行 调 优 的 过 程 , 所 以 可 以 想象 , 网 络 的 复杂 度 将 十 分 巨大 , 需要 使 用 图 形 处 理 器 进行 实验 。 





7.2 GPGPU 的 历史 


图 形 处 理 单 元 通用 计算 是 应 用 GPU 处 理 非 图 形 任务 的 一 种 技术 。 直 到 2006 年 ， 图 形 API 的 
OpenGL 和 DirectX 标 准 仍 是 GPU 编程 的 唯一 方式 。 如 果 试 图 编写 程序 进行 自 定义 计算 ， 可 能 会 被 
这 些 API 所 限制 。 


GPU 最 初 的 设计 是 , 使 用 一 种 名 为 像素 着 色 器 的 可 编程 算术 单元 , 为 屏幕 上 的 每 个 像素 显示 
一 种 颜色 。 后 来 开发 人 员 发 现 ， 如果 输入 的 是 不 代表 像素 颜色 的 数值 型 数据 ,那么 可 以 对 像素 着 
[ur §# 进 行 编程 ， 实现 任意 运算 o 


这 样 ，GPU 就 相当 于 被 “欺骗 ”了 : 表面 上 是 在 进行 常规 的 泻 染 操作 ,实际 上 是 在 执行 用 户 
定义 的 计算 。 通 过 “欺骗 ”的 方式 利用 GPU 资 源 虽 然 很 巧妙 ,但 也 十 分 复杂 ， 不够 直 白 。 

男 外 ,这 种 方式 还 有 内 存 限 制 。 程 序 只 能 接收 很 少 的 颜色 和 材质 单元 作为 输入 数据 。 人 们 难以 
想象 GPU 如 何 处 理 浮 点 型 数据 ( 如 果 能 够 处 理 的话 ), 所 以 很 多 科学 计算 是 无 法 利用 GPU 资源 的 。 


如 果 想 要 利用 GPU 解决 数值 型 问题 ， 那 么 必须 学 习 OpenGL 或 DirectX， 因 为 这 是 和 GPU 通信 
的 唯一 方式 。 
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2006 年 ，NVIDIA 发 布 了 第 一 款 支 持 DirectX 10 的 GPU 一 一 GeForce 8800GTX。 这 也 是 第 一 个 
使 用 CUDA 架 构 的 GPU。 该 架构 包含 几 个 新 的 组 件 ， 专门 为 GPU 运 算 设计 ， 致 力 于 解除 在 GPU 上 
a ee 实际 上 , 该 GPU 上 的 执行 单元 可 以 读 写 任意 内 存 ,并 可 以 访问 软件 中 保 

留 的 一 种 名 为 共享 内 存 的 缓存 。- CUDA GPU 中 添加 的 这 些 架构 特性 在 通用 计算 和 传统 图 形 任务 上 
都 表现 优秀 


图 7-1 总 结 了 图 形 处 理 单元 和 中 央 处 理 单 元 中 不 同 组 件 的 空间 分 配 。 可 以 看 到 ，GPU 含 有 更 
多 处 理 数据 的 晶体 管 。GPU 高 度 并 行 、 多 线程 ， 拥 有 很 多 核心 处 理 器 。 
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图 7-1 CPU 和 GPU 架构 对 比 
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在 GPU 中 ， 除 了 缓存 和 控制 单元 ， 几 乎 所 有 空间 都 分 配给 算术 逻辑 单元 ALU， 
这 使 得 GPU 十 分 适用 于 进行 大 量 数据 的 重复 运算 。GPU 访 问 的 是 本 地 存储 器 ,并 
通过 总 线 ( 现 在 是 PCI Express 总 线 ) 与 系统 ( BPCPU ) 相连 接 。 

图 形 芯 片 包含 一 系列 多 处 理 机 ， 即 流 式 多 处 理 机 。 

这 些 多 处 理 机 的 数量 取决 于 每 个 GPU 的 具体 特征 和 性 能 类 。 


每 个 多 处 理 机 都 是 依次 由 流 处 理 器 (或 核心 ) 组 成 的 。 这 些 处 理 器 中 的 每 一 个 都 可 以 执行 基 
本 的 整 型 、 单 精度 或 双 精 度 浮 点 型 算术 操作 。 






































7.4 GPU 编程 模型 


现在 有 必要 介绍 一 些 CUDA 编 程 模型 的 基本 概念 ， 以 方便 理解 。 第 一 个 特征 是 主机 和 设备 之 
间 的 不 同 。 
主机 端 执行 的 代码 即 是 CPU 加 上 RAM 和 硬盘 上 执行 的 那 一 部 分 。 
而 设备 上 执行 的 代码 会 自动 加 载 到 图 形 卡 ， 并 在 其 上 执行 。 男 一 个 重要 的 概念 是 内 核 ， 表示 
一 个 由 主机 生成 并 在 设备 上 执行 的 函数 。 
核心 上 定义 的 代码 会 被 一 列 线程 并 行 化 。 图 7-2 总 结 了 GPU 编程 模型 的 工作 机 制 : 
口 运行 的 程序 有 一 部 分 源 代 码 在 CPU 上 执行 、 一 部 分 在 GPU 上 执行 ; 
口 CPU 和 GPU 的 存储 器 是 分 开 的 ; 


a 数据 由 CPU 传输 到 GPU 执行 计算 ; 
口 GPU 计算 得 出 的 数据 输出 会 被 复制 回 CPU 的 存储 器 。 






































CPU 


CPU 主 存储 器 






从 CPU 复制 GPUS 
到 GPU BICPU 


GPU 全 局 存储 器 


GPU 











图 7-2 ”GPU 编程 模型 
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7.5 TensorFlow 中 GPU 的 设置 


NVIDIA 深 度 学 习 SDK 为 深度 学 习 框 架 ( 如 Caffe 、CNTK TensorFlow, TheanofllTorch ) FF 
发 者 、GPU 加 速 深 度 学 习 应 用 设计 和 部 署 人 员 提 供 了 很 多 有 力 的 工具 和 库 。 该 SDK 包 含 许 多 库 ， 
用 于 深度 学 习 原始 模型 开发 、 推 理 、 视 频 分 析 、 线 性 代数 、 稀 琉 和 矩阵 和 多 GPU 通信 等 。 现 在 的 版 
本 支持 以 下 SDK。 


口 深度 学 习 原 始 模型 : 构建 深度 神经 网 络 应 用 的 高 性 能 组 件 ， 包 含 卷 积 、 激 活 函数 和 张 量 

变换 。( https;//developer.nvidia.com/cudnn ) 

口 深度 学 习 推 理 引 擎 : 用 于 产品 部 署 的 高 性 能 深度 学 习 推 理 引擎 。( https:/developernvidia.comy/ 

tensorrt ) 

Q 深度 学 习 视 频 分 析 : GPU 加 速 转 码 和 深度 学 习 推 理 的 高 级 C++ API 和 运行 环境 。 

( https://developer.nvidia.com/deepstream-sdk ) 

O 线性 代数 : GPU 加 速 BLAS 功 能 ， 比 只 包含 CPU 的 BLAS 库 加 速 6~17 倍 。(https:/developer. 
nvidia.com/cublas ) XLA 是 一 个 针对 线性 代数 的 领域 特定 编译 器 ， 可 以 优化 TensorFlow 
的 运算 。 虽 然 这 一 功能 还 在 测试 阶段 〈 即 仍 在 开发 中 )， 但 它 确实 可 以 加 速 运算 、 减 少 
内 存 使 用 量 ， 并 增加 了 在 服务 器 和 移动 平台 上 的 灵活 性 。( https:/www.tensorflow.org/ 
performance/xla/ ) 

O RREME: EDT BLE MEEK) GPU ITER ERY, FT LALGCPU BLAS ( MKL ) 
的 性 能 提升 8 倍 ， 对 于 诸如 自然 语言 处 理 等 的 应 用 非常 理想 。( https//developer.nvidia. 
com/cusparse ) 

O 多 GPU 通信 : 聚合 通信 和 例 行 程序 ( 如 all-together 、reduce 和 broadcast 等 )， 可 以 加 速 多 GPU 

深度 学 习 训 练 ， 最 多 可 支持 8 个 GPU。( https:/github.com/NVIDIAmccl ) 



























































深度 学 习 SDK 需 要 CUDA 工 具 包 ( https://developer.nvidia.com/cuda-toolkit )， 该 工 
Cp 具 包 为 构建 新 的 GPU 加 速 深 度 学 习 算 法 提供 了 系统 的 开发 环境 ,可 大 大 提高 已 有 
应 用 的 性 能 。 























为 使 用 启用 NVIDIA GPU 的 TensorFlow， 第 一 步 是 要 安装 CUDA 工 具 包 。 





£p 请 至 https://developer.nvidia.com/cuda-downloads 查 看 具体 安装 方式 。 


CUDA 工 具 包 安装 完成 后 ， 需 要 从 https://developer.nvidia.com/cudnn 下 载 Linux 版 cuDNN v5.1 
Eo 


包含 cuDNN GPU 计算 的 TensorFlow 和 Bazel 的 具体 安装 步骤 请 见 http:/www.nvidia. 
comy/object/gpu-accelerated-applications-tensorflow-installation.html。 
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cuUDNN 是 一 个 加 速 深度 学 习 框 架 ( 如 TensorFlow 或 Theano ) 的 库 。 下 面 是 NVIDIA 网 站 上 对 
该 库 的 简短 介绍 。 








NAVIDIA CUDA@ 和 神经 网 络 库 (cuDNN ) 是 一 个 DNN 原 始 模型 的 GPU 加 速 库 。cuDNN 为 标 
准 例 行 程序 一 一 前 向 和 后 向 卷 积 、 池 化 、 归 一 化 和 激活 层 一 一 提供 了 高 度 协 调 的 实现 。cuDNN 
是 NVIDIA 深 度 学 习 SDK 的 一 部 分 。 




















安装 前 , 需要 先 注册 NVIDIA 的 加 速 运算 开发 者 项 目 。 注 册 后 登录 , 将 cuDNN5.1 下 载 到 你 的 
计算 机 。 


在 本 书 的 写作 过 程 中 ， 最 新 的 cuDNN 版 本 是 5.1， 发 布 于 2017 年 1 月 20 日 ， 支 持 
a CUDA 8.0, #27 f# # 21: 8, if & Whttps://developer.nvidia.com/rdp/cudnn- 
download。 你 应 该 可 以 在 下 载 页 面 看 到 图 7-3 中 的 选项 。 





cuDNN Download 


is a GPU-accelerated library of primitives for deep neural networks 


7| | Agree To the Terms of the cuDNN Software License Agreement 
Please check your framework documentation to determine the recommended version of cuDNN 
If you are using cuDNN with a Pascal (GTX 1080, GTX 1070), version 5 or later is required 














图 7-3 cuDNN FT ih 
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如 图 7-3 所 示 ， 你 需要 选择 平台 /系统 类 型 。 下 面 的 命令 适用 于 在 Linux 上 的 安装 。 现 在 下 载 
cuDNN， 解 压 文件 并 将 其 复制 到 CUDA 工 具 包 目录 下 (假设 此 处 为 /usr/local/cuda/ ): 














$ sudo tar -xvf cudnn-8.0-linux-x64-v5.1-rc.tgz -C /usr/local 


更 新 TensorFlow 








假设 你 使 用 TensorFlow 构 建 DNN 模 型 。 只 需 使 用 pip 及 升级 标签 ， 便 可 升级 TensorFlow。 
假设 你 现在 使 用 的 TensorFlow 版 本 为 1.0.1: 





pip install - upgrade 


https://storage.googleapis.com/tensorflow/linux/gpu/tensorflow-0.10.0rc0-cp27-none 
-linux x86_64.whl 





现在 ， 你 应 该 已 经 得 到 运行 GPU 模型 需要 的 所 有 组 件 。 


对 于 其 他 系统 版 本 、Python 版 本 或 CPU、GPU 支 持 ,请 见 https://www.tensorflow.org/ 
install/install_linux#the_url_of the tensorflow python package 


7.6 TensorFlow 的 GPU 管理 
在 TensorFlow 中 ， 支 持 的 设备 被 表示 为 字符 串 。 


O /cup:0: 你 机 器 中 的 CPU 
口 /gpu:0: 你 机 器 中 的 GPU ( 如 果 有 一 个 的 话 ) 
O /gpu:1: 你 机 器 中 的 第 二 个 GPU ， 等 等 。 


当 一 个 操作 被 分 配给 GPU 设备 时 ， 执 行 流 是 有 优先 级 的 。 








程序 示例 
若 要 在 TensorFlow 程 序 中 使 用 GPU ， 只 需 在 设置 操作 后 输入 如 下 语句 : 


with tf.device("/gpu:0"): 





这 行 代码 会 创建 一 个 新 的 上 下 文 管理 器 ， 告 诉 TensorFlow 在 GPU 上 执行 操作 。 
考虑 以 下 例子 : 执行 下 述 两 个 矩阵 的 求 和 A”+B”。 
定义 导入 的 基本 库 : 





import numpy as np 
import tensorflow as tf 
import datetime 
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可 以 写 一 段 程序 , 查看 你 的 操作 和 张 量 被 分 配 到 哪 一 个 设备 。 为 实现 这 一 操作 , 使 用 下 述 命 
令 创 建 一 个 会 话 ， 将 log_device _placem nt 参数 设置 为 True: 





log_device placement = True 


然后 确定 参数 n， 即 需要 执行 的 乘法 次 数 ; 








re 

Jn eee BELA ABE, EF NumPy Pf) rand pk ey tix PE : 
A = np.random.rand(10000, 10000) .astype('float32') 

B = np.random.rand(10000, 10000) .astype('float32') 


ARA 和 B 的 大 小 分 别 为 10 000x10 000. 
下 面 的 数组 将 用 于 存储 运算 结 


[] 
[] 


此 处 定义 内 核 矩 阵 乘法 函数 ， 将 由 GPU 执行 : 


def matpow(M, n): 
AT rc Xu 
return M 
else: 
return tf.matmul(M, matpow(M, n-1)) 


之 前 提 到 过 ， 必 须 设 置 使 用 哪个 GPU， 以 及 用 此 GPU 执行 何 种 操作 。 
本 例 中 ，GPU 将 计算 A"+B"， 并 将 结果 保存 在 cl 中: 


with tf.device('/gpu:0'): 

a - tf.placeholder(tf.float32, [10000, 10000]) 
b = tf.placeholder(tf.float32, [10000, 10000]) 
cl.append(matpow(a, n)) 

cl.append(matpow(b, n)) 


eÉ 
c2 





如 果 上 述 代码 无 法 运行 ， 那 么 使 用 /job:localhostreplica:O/task:0/cpu:0 作 为 GPU 设 
备 ( 即 代 码 将 会 在 CPU 上 执行 )。 


所 有 元 素 的 和 ， 即 A"+B"， 储 存在 c1 中 。 求 和 操作 由 CPU 执行 ， 因 此 我 们 定义 如 下 : 


with tf.device('/cpu:0'): 
sum = tf.add n(c1) 


datetime 类 统计 代码 的 执行 时 间 : 


t1 1 = datetime.datetime.now() 
with tf.Session(config=tf.ConfigProto\ 
(log_device_placement=log_device_placement)) as sess: 
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sess.run(sum, {a:A, b:B}) 


t2 1 


datetime.datetime.now() 


运算 时 间 由 以 下 语句 显示 : 





print ("GPU computation time: " + str(t2_1-t1_1)) 
我 使 用 的 图 形 卡 为 GeForce 840M， 结 果 如 下 : 
GPU computation time: 0:00:13.816644 


GPU 计算 源 代码 
以 下 是 前 述 示例 的 完整 代码 : 





import numpy as np 
import tensorflow as tf 
import datetime 


log_device_placement = True 


n = 10 


A = np.random.rand(10000, 10000) .astype('float32') 
B = np.random.rand(10000, 10000) .astype('float32') 


cl 
c2 


[] 
[] 


def matpow(M, n): 
if n < 1: #Abstract cases where n < 1 


return M 


else: 


return tf.matmul(M, matpow(M, n-1)) 


with tf.device('/gpu:0'): 


a 
b 


tf.placeholder(tf.float32, [10000, 10000]) 
tf.placeholder(tf.float32, [10000, 10000]) 


cl.append(matpow(a, n)) 
cl.append(matpow(b, n)) 


with tf.device('/cpu:0'): 
sum = tf.add n(c1) #Addition of all elements in cl, i.e. An + B^n 


t1 1 


datetime.datetime.now() 


with tf.Session(config=tf.ConfigProto\ 


(log device placement-log device placement)) as sess: 


sess.run(sum, {a:A, b:B}) 


t2-1 


datetime.datetime.now() 


如 果 上 述 代码 无 法 工作 ， 或 你 的 设备 上 没有 GPU 支持 ， 那 么 使 用 /job:localhost/ 
replica:O/task:0/cpu:0 作 为 GPU 设备 。 
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7.7 GPU 内 存 管理 


在 一 些 情况 下 ， 可 能 会 需要 只 分 配 现 有 内 存 的 一 个 小 子 集 ， 或 只 在 需要 的 时 候 增 大 内 存 。 
TensorFlow 提 供 了 两 个 会 话 中 的 设置 选项 ， 以 控制 内 存 。 第 一 个 是 al low_growth 选 项 ， 功 能 是 
只 分 配 运 行 需要 的 GPU 内 存 。 开 始 时 , 分配 的 内 存 非常 少 ; 随 着 会 话 开始 运行 、 需 要 的 GPU 内 存 
增多 ， 我 们 就 增加 分 配给 TensorFlow 进 程 的 内 存 数量 。 


注意 ， 此 处 不 释放 内 存 ， 因 为 这 样 会 使 内 存 碎 片 化 更 为 严重 。 如 果 要 开局 这 一 功能 ， 需 要 设 


置 ConfigProto: 



































config = tf.ConfigProto() 
config.gpu_options.allow_growth = True 
session = tf.Session(config-config, ...) 


A — 


第 二 个 方法 是 per_process_gpu_memory_fraction 选 项 ,决定 了 每 个 可 用 的 GPU 需 要 分 
配 的 总 内 存 比例 。 


例如 ， 你 可 以 使 用 下 述 语 句 ， 只 给 TensorFlow 分 配 每 个 GPU 总 内 存 的 40%: 





config = tf.ConfigProto() 
config.gpu_options.per_process_gpu_memory_fraction = 0.4 
session = tf.Session(config-config, ...) 


上 述 语句 用 于 限制 TensorFlow 进 程 的 GPU 内 存 使 用 量 。 





7.8 在 多 GPU 系统 上 分 配 单个 GPU 


如 果 你 的 系统 里 有 超过 一 个 GPU, 那么 TensorFlow 会 默认 选取 ID 最 小 的 那 一 块 。 如 果 你 希望 
程序 在 不 同 的 GPU 上 和 运行 ,那么 需要 进行 手动 设置 ， 明 确 指定 所 用 GPU。 


例如 ， 可 以 使 用 前 面 讲 过 的 代码 更 改 GPU 分 配 : 


with tf.device('/gpu:1'): 

a = tf.placeholder(tf.float32, [10000, 10000]) 
b = tf.placeholder(tf.float32, [10000, 10000]) 
cl.append(matpow(a, n)) 

cl.append(matpow(b, n)) 


WATT, SEITLEGPUTA T VIRA 
如 果 指 定 的 设备 不 存在 〈 比如 我 的 例子 里 那样 )， 你 将 会 在 控制 台 (或 终端 ) 收 到 如 下 错误 











InvalidArgumentError : 
InvalidArgumentError (see above for traceback): Cannot assign a device to 
node 'Placeholder 1': Could not satisfy explicit device specification 
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'/device:GPU:1' because no devices matching that specification are 
registered in this process; available devices: 
/job:localhost/replica:0/task:0/cpu:0 

[[Node: Placeholder. 1 = Placeholder[dtype-DT FLOAT, shape-[100,100], 
_device="/device:GPU:1"] ()]] 


如 果 希 望 在 指定 设备 不 存在 的 情况 下 ，TensorFlow 能 够 自动 选择 已 有 的 、 支 持 的 设备 运行 操 
那么 可 以 将 allow_soft_placement 参 数 设 置 为 True: 
with tf.Session(config=tf.ConfigProto\ 

(allow_soft_placement=True, \ 


log_device_placement=log_device_placement) ) \ 
as sess: 


使 用 这 种 方法 ， 运 行 会 话 时 就 不 会 显示 InvalidArgumentError， 而 是 显示 一 个 正确 的 结 
在 我 们 的 例子 中 ， 延 迟 一 小 会 儿 后 ， 结 果 显 示 如 下 : 




















GPU computation time: 0:00:15.006644 


带 有 软 放 置 的 GPU 源 代码 


为 加 深 理解 ， 现 将 本 例 完整 源 代码 展示 如 下 : 
import numpy as np 
import tensorflow as tf 


import datetime 


log_device placement = True 


Ds Se 0 
A = np.random.rand(10000, 10000) .astype('float32') 
B = np.random.rand(10000, 10000) .astype('float32') 
cl = [] 


def matpow(M, n): 
if n < 1: #Abstract cases where n < 1 
return M 
else: 
return tf.matmul(M, matpow(M, n-1)) 


with tf.device('/gpu:1'): 
a = tf.placeholder(tf.float32, [10000, 10000]) 
b tf.placeholder(tf.float32, [10000, 10000]) 
cl.append(matpow(a, n)) 
cl.append(matpow(b, n)) 


with tf.device('/cpu:0'): 
sum = tf.add n(c1) 


t1 1 - datetime.datetime.now() 
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with tf.Session(config-tf.ConfigProtoN 
(allow soft placement-True,V 
log device placement-log device placement))^ 
as sess: 
sess.run(sum, {a:A, b:B}) 
t2 1 = datetime.datetime.now() 


7.9 使 用 多 个 GPU 


如 果 你 希望 在 多 个 GPU 上 运行 TensorFlow, 那么 可 以 在 构建 模型 时 将 特定 代码 段 分 配给 不 同 
GPU. 例如 ,如果 你 有 两 个 GPU， 那么 可 以 将 前 面 的 代码 进行 如 下 分 割 ， 将 第 一 个 和 矩阵 运算 分 配 
给 第 一 个 CPU。 代 码 如 下 : 














with tf.device('/gpu:0'): 
a = tf.placeholder(tf.float32, [10000, 10000]) 
cl.append(matpow(a, n)) 


第 二 个 矩阵 运算 被 分 配给 第 二 个 CPU : 








with tf.device('/gpu:1'): 
b = tf.placeholder(tf.float32, [10000, 10000]) 
cl.append(matpow(b, n)) 


最 后 ，CPU 会 管理 程序 的 结果 。 另 外 需要 注意 ， 我 们 使 用 了 共享 的 c1 数 组 来 收集 结果 : 














TE 








with tf.device('/cpu:0'): 
sum = tf.add n(c1) 
print (sum) 


多 GPU 管理 源 代码 
完整 源 代码 如 下 : 
import numpy as np 
import tensorflow as tf 


import datetime 


log_device placement = True 


n = 10 
A = np.random.rand(10000, 10000) .astype('float32') 
B = np.random.rand(10000, 10000) .astype('float32') 
cl = [] 


def matpow(M, n): 
if n < 1: #Abstract cases where n < 1 
return M 
else: 
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return tf.matmul(M, matpow(M, n-1)) 


#FIRST GPU 

with tf.device('/gpu:0'): 
a = tf.placeholder(tf.float32, [10000, 10000]) 
cl.append(matpow(a, n)) 


#SECOND GPU 

with tf.device('/gpu:1'): 
b = tf.placeholder(tf.float32, [10000, 10000]) 
cl.append(matpow(b, n) ) 


with tf.device('/cpu:0'): 
sum = tf.add n(c1) 


t1 1 = datetime.datetime.now() 
with tf.Session(config=tf.ConfigProto\ 
(allow_soft_placement=True, \ 
log_device_placement=log_device_placement) ) \ 
as sess: 
sess.run(sum, {a:A, b:B}) 
t2 1 = datetime.datetime.now() 


7.10 ”小 结 


GPU 是 一 种 特殊 的 硬件 组 件 ， 原 本 开发 用 于 图 形 应 用 。 然 而 人 们 逐渐 发 现 ，GPU 可 以 用 于 
NN 架 构 中 的 运算 。 
本 章 后 半 部 分 讲解 了 如 何 安装 TensorFlow 的 GPU 启用 版 本 ， 以 及 如 何 管理 GPU 设备 。 


下 一 章 将 讨论 一 些 高 级 编程 特性 ， 将 TensorFlow 与 其 他 第 三 方 工具 ， 如 Keras 、PrettyTensor 
和 TFLearn 等 联合 使 用 。 男 外 ， 还 会 简单 介绍 一 些 基于 TensorFlow 的 框架 Keras PrettyTensor 
和 TFLearn。 

















我 们 会 讲解 这 些 框架 的 基本 特点 ， 并 举 出 一 些 有 趣 的 应 用 示例 。 
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深度 学 习 网 络 的 发 展 ， 尤 其 是 测试 新 模型 时 ， 可 能 需要 快速 成 型 技术 。 出 于 这 一 原因 ， 人 们 
开发 了 几 个 基于 TensorFlow 的 库 ， 将 许多 编程 概念 抽象 出 来 ， 提 供 其 高 层次 的 生成 构件 。 








本 童 将 介绍 一 些 基 于 TensorFlow 的 框架 ， 如 Keras、Pretty Tensor 和 TFLearn。 





对 于 每 个 库 ， 我 们 会 介绍 其 主要 特征 ， 并 给 出 一 个 应 用 示例 。 
本 章 组 织 如 下 : 


口 Keras 简 介 

a 构建 深度 学 习 模 型 

口 影评 的 情感 分 类 

口 添加 一 个 卷 积 层 

O Pretty Tensor 
EEDEN 

Q TFLearn 

O 泰坦 尼克 号 幸存 者 预测 需 








8.1 Keras 简介 
































Keras 是 一 个 极 简 的 高 级 神经 网 络 库 ， 运 行 于 TensorFlow 之 上 。 其 开发 目的 是 让 人 们 更 方便 
地 进行 快速 成 型 和 实验 。Keras 支 持 Python 2.7 或 3.5， 并 可 以 在 给 定 框架 下 无 颖 执行 于 GPU 和 CPU 
之 上 。Keras 发 行 于 MIT 许 可 证 下 。 





Keras 由 谷歌 工程 师 弗 朗 索 瓦 ， 乔 克 开 发 和 维护 ， 其 设计 基于 以 下 原则 。 

口 模块 化 : 模型 被 理解 为 独立 的 、 完 全 可 配置 的 模块 的 一 个 序列 或 一 个 图 。 这 些 模块 可 以 
被 连接 在 一 起 ， 灵 活性 很 高 。 神 经 层 、 代 价 函 数 、 优 化 器 、 初 始 化 模式 和 激活 函数 都 是 
独立 的 模块 ， 可 以 组 合 在 一 起 形成 新 的 模型 。 
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O 极 简 性 : 每 个 模块 必须 很 短 ( 仅 几 行 代码 )， 且 很 简单 。 源 代码 必须 透明 ， 可 直接 阅读 。 
口 可 扩展 性 : 添加 新 的 模块 〈 作 为 新 的 类 和 函数 ) 要 很 容易 ， 且 已 有 的 模块 要 提供 示例 。 
方便 添加 新 模块 可 增加 代码 表现 力 ， 使 Keras 十 分 适用 于 高 级 研究 。 

Q Python: 禁止 声明 形式 的 分 离 模型 配置 文件 。 模 型 以 Python 代码 描述 ,因为 该 语言 比较 至 
密 、 易 调试 ， 且 扩展 方便 。 


图 8-1 为 Keras 的 主页 。 























K | Keras Documentation 


Docs » Home Edit on GitHub 





Keras: Deep Learning library for Theano and TensorFlow 


Home 


Keras: Deep Learning library for Theano 
and TensorFlow 


You have just found Keras. 


You have just found Keras Keras is a high-level neural networks library, written in Python and capable of running on top of either TensorFlow or 


Guiding principles Theano. It was developed with a focus on enabling fast experimentation. Being able to go from idea to result with the 
Getting started: 30 seconds to Keras least possible delay is key to doing good research. 
Installation 


Use Keras if you need a deep learning library that: 


Switching from TensorFlow to Theano 


Support Allows for easy and fast prototyping (through total modularity, minimalism, and extensibility). 


* Supports both convolutional networks and recurrent networks, as well as combinations of the two. 


Why this name, Keras? 


* Supports arbitrary connectivity schemes (including multi-input and multi-output training). 
* Runs seamlessly on CPU and GPU. 


Read the documentation at Keras.io. 








Keras is compatible with: Python 2.7-3.5. 











图 8-1 Keras 主 页 


J+ 
X 


w 








要 安装 Keras， 你 的 系统 上 必须 已 安装 TensorFlow。Keras 可 通过 pip 安 装 














sudo pip install keras 


对 于 Python 3+， 使 用 以 下 命令 : 





sudo pip3 install keras 


在 本 书 的 写作 过 程 中 ，Keras 的 最 新 版 本 为 2.0.2。 你 可 以 使 用 以 下 语句 ， 在 命令 行 中 查看 你 
的 Keras 版 本 : 


python -c "import keras; print keras. version " 
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运行 上 述 脚本 ， 你 将 看 到 如 下 输出 : 
2.0.2 


也 可 以 使 用 相同 的 方法 升级 你 的 Keras 版 本 : 





sudo pip install --upgrade keras 


8.2 构建 深度 学 习 模 型 
Keras 的 核心 数据 结构 是 一 个 模型 ， 用 于 组 织 网 络 层 。 模 型 分 为 两 种 类 型 。 


口 时 序 型 : 模型 的 主要 类 型 。 只 是 网 络 层 的 一 个 线性 栈 。 
O Keras 函 数 式 API: 用 于 更 复杂 的 架构 。 


可 以 如 下 方式 定义 一 个 时 序 模型 : 









































from keras.models import Sequential 
model = Sequential () 


定义 模型 后 ， 可 以 添加 一 个 或 多 个 网 络 层 。 栈 操作 由 adaq () 语句 提供 : 


























from keras.layers import Dense, Activation 


例如 ， 使 用 以 下 语句 添加 第 一 个 全 连接 NN 层 和 激活 函数 : 








model.add(Dense(output_dim=64, input_dim=100) ) 
model.add(Activation("relu") ) 


然后 再 添加 一 个 softmax 层 : 





model.add(Dense (output_dim=10) ) 
model.add(Activation("softmax") ) 


如 果 模 型 看 起 来 没有 问题 ， 则 需要 使 用 model .compile 函 数 编译 模型 ， 指 定 模 型 使 用 的 
loss 国 数 和 optimizer 国 数 : 











I 

















model.compile(loss='categorical_crossentropy', \ 
optimizer='sgd',\ 
metrics=['accuracy']) 


然后 对 优化 器 进行 设置 。Keras 的 目标 是 使 编程 更 加 简单 方便 ， 使 用 户 在 需要 时 完全 控制 模 
型 。 编 译 后 ， 模 型 需要 与 数据 拟 合 : 


model.fit(X_train, Y_train, nb_epoch=5, batch_size=32 
或 者 可 以 将 数据 分 批 次 手动 馈 给 你 的 模型 : 


model.train, on batch(X batch, Y batch) 
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训练 后 ， 可 以 使 用 你 的 模型 预测 新 数据 : 


classes = model.predict classes(X test, batch size-32) 
proba - model.predict proba(X test, batch size-32) 


利用 Keras 构 建 深度 学 习 模 型 的 过 程 总 结 如 下 。 
(1) 定义 模型 : 创建 序列 并 添加 网 络 层 。 

(2) 编译 模型 : 指定 损失 函数 和 优化 器 。 

(3) 拟 合 模型 : 使 用 数据 执行 模型 。 

(4) 评估 模型 : 对 你 的 训练 数据 集 进 行 评估 。 
(5) 进行 预测 : 使 用 模型 对 新 数据 进行 预测 。 
图 8-2 直 观 描述 了 上 述 过 程 。 























(1) 定义 网 络 


| 


(2) 编译 网 络 


} 


(3) 拟 合 网 络 


(4) 评估 网 络 


(5) 进行 预测 


















































图 8-2 ”Keras 编 程 模型 


下 一 节 将 介绍 如 何 使 用 Keras 的 时 序 模型 研究 电影 评论 的 情感 分 类 问题 。 ON 





8.3 影评 的 情感 分 类 
情感 分 析 指 的 是 ， 从 书面 或 口头 文本 解码 其 中 包含 的 意见 。 这 种 技术 的 主要 目的 是 ,识别 词 
汇 表达 的 情感 (或 抽象 成 极端 表示 )， 识 别 结 果 可 能 是 中 立 、 积 极 或 消极 含义 。 


我 们 想 要 解决 的 是 IMDB 影视 评论 情感 分 类 问题 。 每 条 电影 评论 都 是 一 个 单词 变量 序列 ， 需 
要 将 这 些 影评 按照 情感 〈 积极 或 消极 ) 进行 分 类 。 
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该 问题 十 分 复杂 ， 因 为 序列 长 度 不 尽 相 同 ; 另外 ， 输 入 符号 中 包含 的 词汇 也 多 种 多 样 。 

要 解决 这 一 问题 ， 模 型 需要 学 习 输 入 序列 中 的 长 期 依赖 。 

IMDB 数据 集 包 含 25 000 条 高 度 极端 化 的 电影 评论 ( 好 或 坏 ) 作为 训练 集 ， 另 有 同样 数量 的 
数据 作为 测试 集 。 数 据 集 由 斯 坦 福 研究 人 员 收 集 ， 并 在 2011 年 的 一 篇 论文 里 使 用 。 当 时 ， 他 们 将 
数据 集 分 为 两 等 份 ， 分 别 用 于 训练 和 测试 。 在 这 篇 论文 里 ， 分 类 准确 率 达 到 了 88.90%。 

定义 了 我 们 的 问题 后 ， 即 可 开始 构建 一 个 LSTM 模 型 来 对 影评 进行 情感 分 类 。 可 以 为 IMDB 
问题 快速 开发 一 个 LSTM 模 型 ， 并 获得 很 好 的 分 类 准确 率 。 

先导 入 模型 需要 的 类 和 函数 , 并 初始 化 随机 数 生成 天 为 一 个 常数 值 ， 以 确保 可 以 方便 复 现 实 


A H 
验 结果 : 
























































import numpy 

from keras.datasets import imdb 

from keras.models import Sequential 

from keras.layers import Dense 

from keras.layers import LSTM 

from keras.layers.embeddings import Embedding 
from keras.preprocessing import sequence 
numpy.random.seed(7) 


然后 加 载 IMDB 数 据 集 。 将 数据 集 限 制 在 5000 词 以 内 。 另 外 ,也 将 数据 集 分 为 训练 集 (50% ) 
和 测试 集 〈50% )。 














Keras 内 置 了 IMDb 数据 集 ( http://www.imdb.com/interfaces ) 的 访问 入 口 。 你 也 可 
QD VA A Kaggle FJ 35. ( https://www.kaggle.com/deepmatrix/imdb-5000-movie-dataset ) 
下 载 IMDB 数 据 集 。 





imdb.load data () 图 数 允许 将 数据 集 加 载 为 神经 网 络 和 深度 学 习 模 型 适用 的 格式 。 单 词 已 
被 替换 为 整数 ,代表 每 个 单词 在 该 数据 集中 的 有 序 频 率 。 这 样 ， 每 条 影评 中 的 句子 就 被 转换 为 一 
个 整数 序列 。 








代码 如 下 : 
top_words = 5000\ 
(X_train, y_train), (X_test, y_test) =\ 


imdb.load data (nb words-top words) 


接 下 来 ， 需 要 截 短 /填充 每 个 输入 序列 ， 使 它们 长 度 相 同 ， 方 便 建 模 。 模 型 会 学 习 输 入 中 不 
包含 任何 信息 的 0 值 ， 因 为 虽然 序列 的 内 容 并 不 一 样 长 ， 但 使 用 Keras 进 行 计 算 时 ， 输 入 数组 必须 
拥有 相同 长 度 。 每 条 影评 中 的 序列 长 度 不 同 ， 所 以 我 们 将 每 条 影评 限制 为 500 词 ， 将 长 于 500 词 
的 评论 截 短 ， 短 于 500 词 的 评论 用 0 值 填充 。 


代码 如 下 : 
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max_review_length = 500\ 
X train = sequence.pad_sequences\ 

(X_train, maxlen=max_review_length) 
X test = sequence.pad_sequences\ 

(X_test, maxlen=max_review_length) 


现在 ， 开 始 定义 、 编 译 并 拟 合 我 们 的 LSTM 模 型 。 


为 解决 情感 分 类 问题 ， 我 们 将 使 用 词 误 和 技术,， 即 将 单词 映射 到 一 个 连续 的 向 量 空 间 中 , 语 
义 相近 的 单词 会 被 映射 到 该 空间 内 的 相 邻 点 上 。 词 嵌入 基于 分 布 假设 , 即 给 定 的 上 下 文中 出 现 的 
单词 一 定 有 相同 的 语义 特征 。 这 样 ， 每 条 影评 将 会 被 映射 到 一 个 实 向 量 域内 ,单词 间 的 语义 相似 
性 因此 被 转换 为 向 量 空间 中 的 点 之 间 的 距离 。Keras 提 供 了 一 种 方便 的 方式 ， 可 以 将 单词 的 整数 
BIS Aik AAT A o 


rl AE SCHR A EKEKA ; 














embedding_vector_length = 32 
model = Sequential () 


BENRA, EHAKE 32888] to BES ied : 


model .add (Embedding (top words," 
embedding_vector_length, \ 
input_length=max_review_length) ) 


下 一 个 层 为 LSTM 层 ， 含 有 100 个 记忆 单元 。 最 后 ， 由 于 需要 解决 的 是 一 个 分 类 问题 ， 我 们 
使 用 仅 含 有 一 个 神经 元 的 Dense 输 出 层 和 一 个 sigmoigd 激 活 函数 进行 二 元 预测 。 其 中 0O 和 1 分 别 代 
表 问 题 中 的 两 个 类 ( 好 或 坏 ): 


model.add (LSTM(100)) 
model.add(Dense(1, activation='sigmoid')) 


由 于 这 是 一 个 二 元 分 类 问题 ， 所 以 使 用 binary_crossentropy 图 数 作 为 1oss 困 数 ， 而 
optimizer Hadam kR ( 本 书 前 几 章 的 TensorFlow 代 码 中 使 用 过 该 算法 ): 








model.compile(loss='binary_crossentropy',\ 
optimizer='adam', \ 
metrics-['accuracy']) 
print (model.summary () ) 


我 们 只 拟 合 3 个 训练 时 期 ， 因 为 该 问题 会 很 快 过 拟 合 。 将 每 64 个 影评 分 为 一 批 ， 进 行 权 重 
更 新 : 
model.fit(X_train, y_train, \ 
validation data-(X test, y_test),\ 


nb_epoch=3, \ 
batch_size=64) 


然后 ， 评 估 该 模型 在 测试 影评 上 的 表现 : 
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相近 


scores = model.evaluate(X test, y test, verbose-0) 


9. 


print("Accuracy: %.2£%%" % (scores[1]*100)) 
运行 该 示例 ， 可 得 到 以 下 输出 : 


Epoch 1/3 

16750/16750 [==============================] - 107s - loss: 0.5570 - acc: 
0.7149 
Epoch 2/3 

16750/16750 [==============================] - 107s - loss: 0.3530 - acc: 
0.8577 
Epoch 3/3 

16750/16750 [==============================] - 107s - loss: 0.2559 - acc: 
0.9019 

Accuracy: 86.79% 


可 以 看 到 ， 如 此 简单 的 LSTM 模 型 稍 加 调整 ， 就 可 以 在 IMDB 问题 上 得 ! 1 与 最 新 研究 准确 率 
的 结果 。 更 重要 的 是 ， 有 了 这 个 模板 ， 你 可 以 构建 LSTM 网 络 解决 自己 的 序列 分 类 问题 。 








Keras 电影 分 类 器 源 代码 





下 面 给 出 该 问题 的 完整 源 代码 。 可 以 看 到 ,代码 非常 简短 。 不 过 ， 如 果 你 收 到 错误 信息 ， 称 





找 不 到 keras .datasets 模 块 之 类 ， 则 需要 使 用 以 下 命令 安装 keras 包 : 


$ sudo pip install keras 


或 者 ， 你 可 以 从 https://pypi.python.org/pypi/Keras 下 载 Keras 的 源 代码 ， 解 压 文件 ， 
ep 使 用 Python3 (在 keras 文 件 夹 内 ) 通过 如 下 命令 运行 源 代码 : python keras 


movie classifier 1.py 


import numpy 

from keras.datasets import imdb 

from keras.models import Sequential 

from keras.layers import Dense 

from keras.layers import LSTM 

from keras.layers.embeddings import Embedding 
from keras.preprocessing import sequence 


# fix random seed for reproducibility 
numpy.random.seed(7) 


# load the dataset but only keep the top n words, zero the rest 

top words - 5000 

(X train, y train), (X test, y test) =\ 
imdb.load data (nb words-top words) 

# truncate and pad input sequences 

max review length - 500 

X train = sequence.pad sequences(X train, maxlen-zmax review length) 

X test - sequence.pad sequences(X test, maxlen-max review length) 
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# create the model 
embedding_vector_length = 32 
model = Sequential () 
model.add(Embedding(top_words, embedding_vector_length, \ 
input_length=max_review_length) ) 
model.add(LSTM(100) ) 
model.add(Dense(1, activation='sigmoid') ) 
model.compile(loss='binary_crossentropy', \ 
optimizer='adam', \ 
metrics=['accuracy']) 
print (model.summary () ) 


model.fit(X train, y_train, \ 
validation data-(X test, y_test),\ 
nb epoch-3, batch size-64) 





# Final evaluation of the model 
Scores - model.evaluate(X test, y test, verbose-0) 


9. 9. 


print("Accuracy: %.2£%%" % (scores[1]*100)) 

8.4 添加 一 个 卷 积 层 
可 以 在 府 和 人 层 后 添加 一 维 CNN 和 最 大 池 化 层 ， 这 些 层 可 以 将 强化 的 特征 馈 给 LSTM 网 络 。 
以 下 是 我 们 的 戏 入 层 : 














model = Sequential () 
model .add (Embedding (top words," 
embedding_vector_length, \ 
input_length=max_review_length) ) 


可 以 添加 一 个 卷 积 核 大 小 (filter_length ) 为 3 的 小 卷 积 核 卷 积 层 ， 带 有 32 个 输出 特征 
(nb filter): 





model.add(ConviD (padding-"same", activation-"relu", kernel size=3,\ 





num filter-32)) 

接 下 来 ， 添 加 一 个 池 化 层 。 最 大 池 化 的 应 用 范围 大 小 为 2: 8 | 
model.add(GlobalMaxPooling1D ()) 

下 一 个 层 为 LsTM 层 ， 含 有 100 个 记忆 单元 : 

model.add (LSTM(100)) 


最 后 的 层 为 一 个 Dense 输 出 层 , 含有 一 个 神经 元 和 一 个 sigmoid 激 活 函 数 ， 用 来 给 出 预测 结 
果 0 或 1， 代 表 问 题 中 的 〈 好 或 坏 ) 两 个 类 ( 亦 即 这 是 一 个 二 元 分 类 问题 ): 


model.add(Dense(1, activation-'sigmoid')) 
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运行 该 示例 ， 得 到 以 下 输出 : 


Epoch 1 


16750/1675 


0.7263 


Epoch 


2/3 


16750/1675 


0.8825 


Epoch 


3/3 





16750/1675 
0.229) = aces 0, 9126 
Accuracy: 


获得 的 结果 比 我 们 前 面 的 模型 有 微小 的 改进 。 


Q [2szszzzczlczlzlzlll2lcl2-2-------------[' £588» .lOSS: 


Q'[sssesssc2ccscaeocccsseoesccz2se2e-] s 588. Loss: 


Ü-[ssssssszc2scos2ccc2o2occooc-2cocc2-] 二 "logs: 


86.36$ 


含有 卷 积 层 的 电影 分 类 器 源 代 码 
前 述 例子 的 完整 源 代码 如 下 : 


impor 
from 
from 
from 
from 
from 
from 
from 


Keras 
Keras 


Keras 





Keras. 
Keras. 
Keras. 


Keras. 


t numpy 


.datasets import imdb 

.models import Sequential 

layers import Dense 

layers import LSTM 

layers.embeddings import Embedding 
.preprocessing import sequence 

layers import Conv1D, GlobalMaxPooling1D 


# fix random seed for reproducibility 
numpy.random.seed(7) 


# load the dataset but only keep the top n words, 


top words 
(X train, 


- 5000 


y: train), (X test. y test) «Y 


0.5186 - acc: 


0.2946 - acc: 


zero the rest 


imdb.load data (num words-top words) 


# truncate and pad input sequences 
max review length - 500 
Sequence.pad sequences(X train, maxlen-zmax review length) 


Strain = 
X test = s 


equence.pad sequences(X test, maxlen-max review length) 


# create the model 

embedding vector length - 32 

- Sequential() 

model.add(Embedding (top words, embedding vector length,wWN 


model 


input length-zmax review length)) 


model.add(ConviD (padding-"same", activation-"relu", kernel size-3,wN 
num filter-32)) 
model.add(GlobalMaxPooling1D ()) 


model.add(LSTM(100)) 
model.add(Dense(1, activation='sigmoid') ) 
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model.compile(loss-'binary crossentropy',wN 
optimizer='adam', \ 
metrics-['accuracy']) 
print (model.summary () ) 


model.fit(X_train, y_train, \ 
validation data-(X test, y_test),\ 
nb epoch-3, batch size-64) 





# Final evaluation of the model 
Scores - model.evaluate(X test, y test, verbose-0) 


print("Accuracy: %.2£%%" % (scores[1]*100)) 


8.5 Pretty Tensor 














Pretty Tensor 人 允许 开发 者 将 TensorFlow 操 作 封 装 起 来 ， 以 便 快 速 链接 任意 数量 的 网 络 层 ， 以 
定义 神经 网 络 。 


下 面 这 个 简单 的 例子 展示 了 Pretty Tensor 的 功能 。 我 们 将 一 个 标准 TensorFlow 对 象 pretty 封 
装 成 一 个 库 编译 对 象 ， 然 后 将 其 馈 给 3 个 全 连接 层 ， 最 终 和 输出 一 个 softmax 分 布 : 





pretty = tf.placeholder([None, 784], tf.float32) 
softmax = (prettytensor.wrap (examples) \ 
.fully_connected(256, tf.nn.relu) \ 
.fully. connected(128, tf£.sigmoid) \ 
.fully. connected(64, tf.tanh) \ 
.Softmax(10)) 


Pretty Tensor 的 安装 过 程 十 分 简单 。 只 需 输入 以 下 pip 命 令 : 





sudo pip install prettytensor 


层 的 链接 
Pretty Tensor 含 有 3 种 操作 模式 ， 都 可 以 用 来 链接 网 络 层 。 


1. 正常 模式 














在 正常 模式 中 ， 每 次 调用 一 个 方法 时 ， 会 创建 一 个 新 的 Pretty Tensor。 这 样 可 以 使 链接 变 得 
简单 方便 ， 而 且 你 仍 可 以 多 次 使 用 任意 的 对 象 。 这 样 ， 你 能 够 方便 地 对 网 络 进行 分 支 。 


2. 时 序 模式 


时 序 模式 中 会 有 一 个 内 部 变量 一 一 头 , 用 于 追踪 最 近 的 输出 张 量 , 因此 可 以 将 链 的 调用 分 成 
多 个 语句 。 


182 第 8 章 TensorFlow 高 级 编程 








以 下 是 一 个 小 例子 : 


seq = pretty tensor.wrap(input data).sequential() 
seq.flatten() 

seq.fully connected(200, activation fn-tf.nn.relu) 
seq.fully connected(10, activation fnzNone) 

result - seq.softmax(labels, name-softmax name)) 


3. 分 支 联结 
使 用 一 流 的 分 支 联结 方法 ， 可 以 构建 复杂 的 网 络 。 


a 分 支 操作 会 创建 一 个 独立 的 Pretty Tensor 对 象 ， 在 被 调用 时 指向 当前 的 头 。 这 样 ， 用 户 可 
以 定义 一 个 独立 的 tower， 该 tower 可 以 终止 于 一 个 回归 目标 、 输 出 或 网 络 的 联结 处 。 联 结 
操作 允许 用 户 定义 复合 的 网 络 屋 ， 如 inception 层 。 

口 联结 操作 用 于 联结 多 个 输入 或 重新 组 合 一 个 复合 层 。 




















8.6 ”数字 分 类 器 
本 例 中 ， 我 们 将 定义 并 训练 一 个 LeNet 5 风格 的 二 层 模型 或 卷 积 模型 








from six.moves import xrange 

import tensorflow as tf 

import prettytensor as pt 

from prettytensor.tutorial import data utils 


tf.app.flags.DEFINE_string(\ 
'save path', None, 'Where to save the model checkpoints.') 
FLAGS - tf.app.flags.FLAGS 


BATCH SIZE - 50 
EPOCH SIZE - 60000 // BATCH SIZE 
TEST SIZE - 10000 // BATCH SIZE 


由 于 馈 给 网 络 的 数据 为 numpy 数 组 形式 ， 所 以 需要 在 图 中 创建 占 位 符 ， 通 过 feed dict 完 成 馈 
给 操作 : 


image_placeholder = tf.placeholder\ 

(tf.float32, [BATCH SIZE, 28, 28, 1]) 
labels. placeholder = tf.placeholder\ 

(t£.float32, [BATCH SIZE, 10]) 





tf.app.flags.DEFINE string('model', 'full',\ 
"Choose one of the models, either\ 
full or conv') 

FLAGS - tf.app.flags.FLAGS 


SRG BIE FXRmultilayer. fully connecteaPA ZR. Bi PA EB 1004 Z5 
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最 后 一 个 层 为 softmax 结 果 层 。 注 意 ， 层 的 链接 是 一 个 十 分 简单 的 操作 : 


def multilayer_fully_connected(images, labels): 
images = pt.wrap(images) 
with pt.defaults_scope\ 
(activation_fn=tf.nn.relu,12loss=0.00001): 


return(images.flatten().\ 
fully_connected(100).\ 
fully_connected(100).\ 
softmax classifier(10,1abels)) 


下 面 构建 一 个 多 层 卷 积 网 络 ， 其 架构 与 LeNet 5284]... fttt n DURER, Diego — 


def lenet5(images, labels): 
images - pt.wrap(images) 
with pt.defaults_scope\ 
(activation fn-tf.nn.relu, 12loss=0.00001): 


return (images.conv2d(5, 
max pool(2, 2).\ 
conv2d(5, 50).\ 
max pool(2, 2). \ 
flatten().\ 
fully_connected(500).\ 
softmax classifier(10, labels) ) 


由 于 我 们 馈 给 网 络 的 数据 为 numpy 数 组 形式 ， 所 以 需要 在 图 中 创建 占 位 符 ， 通 过 feed dict 完 
成 馈 给 操作 : 


def main(_=None): 
image_placeholder = tf.placeholder\ 


(tf.float32, [BATCH_SIZE, 28, 28, 1]) 
labels. placeholder = tf.placeholder\ 


(tf.float32, [BATCH SIZE, 10]) 


根据 FLAGS .modqel， 构 建 一 个 之 前 定义 过 的 二 层 分 类 器 或 一 个 卷 积分 类 器 : 


def main(_=None): 


20).\ 





if FLAGS.model == 'full': 
result = multilayer_fully_connected\ 


(image_placeholder, labels_placeholder) 
elif FLAGS.model == 'conv': 


result = lenet5(image_placeholder, labels_placeholder) 
else: 


raise ValueError\ 


('model must be full or conv: $s' $ FLAGS.model) 


AXIS AVE SERIA RAE X accuracy PRA: 
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accuracy = result.softmax.evaluate_classifier\ 
(labels placeholder, phase=pt.Phase.test) 


接着 ， 构 建 训练 集 和 测试 集 : 


train_images, train_labels = data_utils.mnist (training=True) 
test images, test labels = data_utils.mnist (training=False) 


使 用 梯度 下 降 优 化 器 ， 并 将 其 应 用 到 图 。pt .apply_optimizer 函 数 为 损失 添加 了 正则 项 ， 
并 设置 了 一 个 步 数 统计 器 : 


optimizer = tf.train.GradientDescentOptimizer(0.01) 
train op = pt.apply_optimizer (optimizer, losses=[result.loss]) 


可 以 在 运行 会 话 中 设置 save_path， 每 隔 一 段 时 间 自 动 触发 cneckpoint 事 件 。 否 则 在 会 话 结 
束 时 ， 模 型 将 会 丢失 : 
runner = pt.train.Runner(save path-FLAGS.save path) 


with tf.Session(): 
for epoch in xrange(10): 


用 以 下 代码 更 换 训练 数据 : 


train_images, train_labels =\ 
data_utils.permute_data\ 
((train_images, train_labels) ) 











runner.train_model (train_op,result.\ 
loss,EPOCH_SIZE, \ 
feed_vars=(image_placeholder, \ 
labels_placeholder) ,\ 
feed_data=pt.train.\ 
feed_numpy (BATCH_SIZE, \ 
train_images, \ 
train labels), 
print every-100) 


classification accuracy = runner.evaluate_model\ 
(accuracy, \ 
TEST_SIZE, \ 
feed_vars=(image_placeholder, \ 
labels_placeholder), \ 
feed_data=pt.train.\ 
feed_numpy (BATCH_SIZE, \ 
test_images, \ 
test_labels) ) 
print('epoch' , epoch + 1) 
print ('accuracy', classification accuracy ) 
if name a=.) náin "a 
tf.app.run() 
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运行 该 例 ， 输 出 如 下 : 


>>> 
Extracting /tmp/data/train-images-idx3-ubyte.gz 
Extracting tmp/data/train-labels-idxl-ubyte.gz 
Extracting /tmp/data/t10k-images-idx3-ubyte.gz 
Extracting /tmp/data/t10k-labels-idxl-ubyte.gz 
epoch = 1 

Accuracy [0.8994] 

epoch = 2 
Accuracy [0.91549999] 
epoch = 3 
Accuracy [0.92259997] 
epoch = 4 
Accuracy [0.92760003] 
epoch = 5 
Accuracy [0.9303] 
epoch = 6 
Accuracy [0.93870002 
epoch = 7 
epoch = 8 
Accuracy [0.94700003 
epoch = 9 
Accuracy [0.94910002 
epoch = 10 
Accuracy [0.94980001 











数字 分 类 器 源 代码 
以 下 是 前 面 描述 的 数字 分 类 器 的 完整 源 代 码 : 


from six.moves import xrange 





import tensorflow as tf 
import prettytensor as pt 
from prettytensor.tutorial import data_utils 


tf.app.flags.DEFINE_string('save_path', None, 'Where to save the model checkpoints.') 
FLAGS = tf.app.flags.FLAGS 


EPOCH_SIZE = 60000 // BATCH_SIZE 


TEST_SIZE = 10000 // BATCH_SIZE 





image_placeholder = tf.placeholder\ 

(tf.float32, [BATCH SIZE, 28, 28, 1]) 
labels. placeholder = tf.placeholder\ 

(t£.float32, [BATCH SIZE, 10]) 





tf.app.flags.DEFINE string('model', 'full','Choose one of the models, either full or 
conv') 

FLAGS - tf.app.flags.FLAGS 

def multilayer fully connected(images, labels): 
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images = pt.wrap(images) 
with 
pt.defaults scope(activation fn-tf.nn.relu,1210ss-0.00001): 
return (images.flatten().\ 
fully. connected(100).^ 
fully. connected(100).^ 
softmax classifier(10, labels)) 


def lenet5 (images, labels): 
images - pt.wrap(images) 
with pt.defaults_scope\ 
(activation fn-tf.nn.relu, 12loss=0.00001): 
return (images.conv2d(5, 20).\ 
max pool(2, 2).\ 
conv2d(5, 50).\ 
max pool(2, 2).\ 
flatten(). \ 
fully. connected(500).^ 
softmax classifier(10, labels)) 


def main( -None): 
image placeholder = tf.placeholder\ 
(tf.float32, [BATCH SIZE, 28, 28, 1]) 
labels placeholder = tf.placeholder\ 
(t£.float32, [BATCH SIZE, 10]) 


if FLAGS.model -- 'full': 
result = multilayer. fully. connectedwN 
(image placeholder,wN 


labels. placeholder) 
elif FLAGS.model -- 'conv': 
result = lenet5(image_placeholder, \ 
labels_placeholder) 


else: 
raise ValueError\ 
('model must be full or conv: $s' $ FLAGS.model) 


accuracy = result.softmax.\ 
evaluate_classifier\ 
(labels placeholder, phase=pt.Phase.test) 


train images, train labels = data utils.mnist(training-True) 
test images, test labels - data utils.mnist(training-False) 
optimizer - tf.train.GradientDescentOptimizer(0.01) 

train op - pt.apply optimizer(optimizer,losses-[result.loss]) 
runner = pt.train.Runner(save path-FLAGS.save path) 


with tf.Session(): 
for epoch in xrange(10): 
train images, train labels =\ 
data utils.permute data\ 
((train images, train labels)) 


runner.train model(train op,result.N 
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loss, EPOCH_SIZE, \ 
feed_vars=(image_placeholder, \ 
labels_placeholder), 
feed data-pt.train.^ 
feed  numpy (BATCH, SIZE,N 
train, images, 
train labels), 
print, every-100) 
classification accuracy = runner.evaluate_model\ 
(accuracy, \ 
TEST_SIZE, \ 
feed_vars=(image_placeholder, \ 
labels_placeholder) ,\ 
feed_data=pt.train.\ 
feed_numpy (BATCH_SIZE, \ 
test_images, \ 
test_labels) ) 
print ('epoch' , epoch + 1) 
print ('accuracy', classification accuracy ) 


if name -- ' main 
tf.app.run() 





8.7 TFLearn 
TFLearn 是 一 个 函数 库 ， 它 将 许多 TensorFlow 的 全 新 API 封 装 成 易 用 日 熟悉 的 scikit-learn API. 


TensorFlow 的 本 质 是 建立 和 执行 一 个 图 。 这 是 一 个 非常 强大 的 概念 ,但 对 于 初学 者 来 说 可 能 
难以 理解 。 


若 将 TFLeam 作 为 外 壳 ， 我 们 只 需要 用 到 TensorFlow 的 三 部 分 。 


OQ E: 这 是 一 系列 高 级 TensorFlow 函 数 ， 人 允许 你 方便 地 构建 复杂 的 图 一 一 从 全 连接 层 、 卷 积 

层 和 批 归 一 化 (BN) 层 ， 到 损失 函数 和 优化 也 数 。 

O 图 操作 : 这 是 一 系列 工具 ， 用 于 训练 、 测 试 和 在 TensorFlow 图 上 运行 界面 。 

口 评估 算 子 : 该 算 子 封装 了 一 个 类 中 所 有 的 scikit-learn 接 口 ， 并 提供 了 一 种 方便 地 构建 和 训 

练 自 定义 TensorFlow 模 型 的 方式 。 评 估算 子 的 子 类 ， 如 线性 分 类 器 、 线 性 回归 器 、DNN o 
分 类 器 等 ， 都 是 被 预先 封装 的 模型 ;与 sciki- ieam 中 的 逻辑 回归 类 似 ， 可 以 通过 一 行 代码 

调用 。 














































































































安装 TFLearn 

















要 安装 TFLearn， 最 简单 的 方法 是 运行 下 述 命令 


pip install git+https://github.com/tflearn/tflearn.git 
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若 要 安装 最 新 稳定 版 本 ， 可 以 使 用 如 下 命令 : 


pip install tflearn 


或 者 ， 也 可 以 从 源 代码 安装 TFLearn。 从 源 文 件 夹 运行 以 下 命令 即 可 : 


python setup.py install 





65 若 要 查看 更 为 详细 的 TFLearn 安 装 方法 ， 请 参考 https://github.com/tflearn/tflearn。 


8.8 泰坦 尼克 号 幸存 者 预测 器 





该 教程 中 ， 我 们 将 学 习 使 用 TFLearn 和 TensorFlow， 通 过 泰坦 尼克 号 中 乘客 的 个 人 信息 (如 


























性 别 、 年 龄 等 ), 对 乘客 的 幸存 机 会 建 模 。 为 解决 这 一 传统 机 器 学 习 问 题 , 我 们 将 要 构建 一 个 DNN 





简要 查看 以 下 数据 集 ( TFLearm 会 自动 为 你 下 载 该 数据 集 )。 

对 于 每 个 乘客 ， 数 据 集 提供 了 如 下 信息 : 

survived 是 否 幸 存 (0 = Gs 1 = 是 ) 

pclass 乘客 船舱 等 级 (1 = st; sa) 

name 姓名 

sex 性 别 

age 年 龄 

sibsp 海外 兄弟 姐妹 /配偶 数量 

parch 海外 父母 /子女 数量 

ticket Rx 

fare E 

以 下 是 从 数据 集中 抽取 的 一 些 样本 : 

survived pclass name age sibsp parch ticket fare 

1 1 Aubart, Mme. Leontine Pauline 24 0 0 PC 17477 69.3000 
0 2 Bowenur, Mr. Solomon 42 0 0 211535 13.0000 
1 3 Baclini, Miss. Marie Catherine 5 2 1 2666 19.2583 
0 3 Youseff, Mr. Gerious 45.5 0 0 2628 7.2250 


我 们 的 任务 中 有 两 个 类 : 未 幸存 ( class=0 ) 和 幸存 (class=1 ), 乘客 数据 中 含有 8 个 特征 。 
titanic 数 据 集 由 CSV 文 件 格 式 存储 , 因此 可 以 使 用 TFLearn 的 1oaaq_csv() 函数 ,从 文件 中 


加 载 数据 到 一 个 Python 列表 。 指 定 Earget_column 参 数 ， 表 示 我 们 的 标签 (幸存 与 否 ) 位 于 第 
一 列 (ID 为 0 )。 函 数 返回 一 个 二 元 组 (数据 , 标签 )。 


现在 ， 开 始 导 人 numpy 和 TFLearn 库 : 
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import numpy as np 
import tflearn 


下 载 titanic 数 据 集 : 


from tflearn.datasets import titanic 
titanic.download_dataset ('titanic_dataset.csv') 


加 载 CSV 文 件 ， 并 标明 第 一 列 代表 标签 1abels: 


from tflearn.data_utils import load_csv 
data, labels = load_csv('titanic_dataset.csv', target_column=0, \ 
categorical_labels=True, n_classes=2) 


数据 需要 经 过 一 些 预 处 理 , 供 我 们 的 DNN 分 类 器 使 用 。 实际 上 , 必须 删除 一 些 分 析 过 程 中 不 
需要 的 列 和 域 。 此 处 删除 name 和 ticket 域 ， 因 为 我 们 认为 ， 乘 客 的 姓名 和 票 号 是 不 影响 其 幸存 
概率 的 : 

def preprocess(data, columns to ignore): 


预 处 理 过 程 中 ， 先 将 数据 按照 id 降序 排列 ， 并 删除 该 列 : 














for id in sorted(columns_to_ignore, reverse=True): 
[r.pop(id) for r in data] 
for i in range(len(data)): 


sex 域 被 转换 为 float 型 (为 方便 操作 ): 


data[i][1] = 1. if data[i][1] == 'female' else 0. 
return np.array(data, dtype-np.float32) 


和 之 前 提 到 过 的 一 样 ，name 和 ticket 域 在 分 析 中 会 被 忽略 : 

to_ignore=[1, 6] 

此 处 调用 preprocess 过 程 : 

data = preprocess (data, to_ignore) 

首先 ， 需要 指定 输入 数据 的 形状 。 输 入 样本 共有 6 个 特征 ， 需 要 分 批 处 理 样本 以 节省 内 存 ， 
所 以 输入 数据 形状 为 [None，6] 。None 参 数 表 示 维 数 未 知 ， 因 此 可 以 改变 每 个 批 次 中 处 理 的 样 
本 总 个 数 : 

net = tflearn.input_data(shape=[None, 6]) 


最 后 ， 使 用 下 列 简单 的 语句 构建 一 个 三 层 神经 网 络 : 











net = tflearn.fully_connected(net, 32) 

net = tflearn.fully_connected(net, 32) 

net = tflearn.fully_connected(net, 2, activation='softmax' ) 
net = tflearn.regression(net) 
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TFLearn 提 供 了 一 个 模型 封装 器 DNN， 可 以 自动 完成 神经 网 络 分 类 任务 : 








model = tflearn.DNN (net) 

运行 10 个 训练 时 期 ， 每 个 批 的 大 小 为 16: 

model.fit(data, labels, n_epoch=10, batch_size=16, show_metric=True) 
运行 模型 ， 得 到 以 下 输出 : 


Training samples: 1309 

Validation samples: 0 

Training Step: 82 | total loss: 0.64003 

Adam epoch: 001 loss: 0.64003 - acc: 0.6620 -- iter: 1309/1309 
Training Step: 164 total loss: 0.61915 
Adam epoch: 002 loss: 0.61915 - acc: 0.6614 -- iter: 1309/1309 


Training Step: 246 total loss: 0.56067 

Adam epoch: 003 loss: 0.56067 - acc: 0.7171 -- iter: 1309/1309 
Training Step: 328 total loss: 0.51807 

Adam epoch: 004 loss: 0.51807 - acc: 0.7799 -- iter: 1309/1309 
Training Step: 410 total loss: 0.47475 

Adam epoch: 005 loss: 0.47475 - acc: 0.7962 -- iter: 1309/1309 
Training Step: 492 total loss: 0.51677 

Adam epoch: 006 loss: 0.51677 - acc: 0.7701 -- iter: 1309/1309 
Training Step: 574 total loss: 0.48988 


Adam epoch: 007 loss: 0.48988 - acc: 0.7891 -- iter: 1309/1309 



































Training Step: 656 total loss: 0.55073 

Adam epoch: 008 loss: 0.55073 - acc: 0.7427 -- iter: 1309/1309 
Training Step: 738 total loss: 0.50242 

Adam epoch: 009 loss: 0.50242 - acc: 0.7854 -- iter: 1309/1309 
Training Step: 820 total loss: 0.41557 

Adam epoch: 010 loss: 0.41557 - acc: 0.8110 -- iter: 1309/1309 


模型 的 准确 率 约 为 81% ， 表 示 该 模型 可 以 预测 正确 约 81% 的 乘客 是 否 幸存 。 
最 后 ， 评 价 模型 ， 获 取 最 终 准 确 率 : 





accuracy = model.evaluate(data, labels, batch_size=16) 
print ('Accuracy: ', accuracy) 


输出 如 下 : 


Accuracy: [0.78456837289473591] 
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泰坦 尼克 分 类 器 源 代码 
前 面 实现 的 分 类 器 的 完整 代码 如 下 : 


import tflearn 

import numpy as np 

from tflearn.datasets import titanic 
titanic.download dataset('titanic dataset.csv') 
from tflearn.data utils import load csv 


data, labels = load csv('titanic dataset.csv', target column-z0, 
categorical labels-True, n classes-2) 


def preprocess(data, columns to ignore): 
for id in sorted(columns to ignore, reverse-True): 
[r.pop(id) for r in data] 
for i in range(len(data)): 
data[i][1] = 1. if data[i][1] == 'female' else 0. 
return np.array(data, dtype-np.float32) 


to ignore-[1, 6] 
data - preprocess(data, to ignore) 





net - tflearn.input data(shape-[None, 6]) 

net = tflearn.fully. connected (net, 32) 

net - tflearn.fully. connected(net, 32) 

net = tflearn.fully. connected(net, 2, activation-'softmax') 

net = tflearn.regression (net) 

model - tflearn.DNN (net) 

model.fit(data, labels, n epoch-10, batch size-16, show metric-True) 


# Evalute the model 
accuracy = model.evaluate(data, labels, batch size=16) 
print('Accuracy: ', accuracy) 


8.9 小 结 
本 章 讲解 了 三 个 基于 TensorFlow 的 库 ， 可 方便 深度 学 习 人 研究 和 开发 。 
我 们 介绍 了 Keras。 该 库 的 设计 目标 是 精简 和 模块 化 ， 人 允许 用 户 快 速 定义 深度 学 习 模 型 。 


通过 使 用 Keras， 我 们 了 解 了 如 何 开发 一 个 简单 的 单 层 LSTM 模 型 ， 用 于 对 IMDB 影评 进行 情 


JON 


























然后 简要 介绍 了 Pretty Tensor. 该 库 人 允许 开发 者 将 TensorFlow 操 作 封 装 起 来 , FALE BALE 
量 的 网 络 层 。 


我 们 实现 了 一 个 LeNet 风 格 的 卷 积 模型 ， 可 以 快速 解决 手写 数字 分 类 问题 。 
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最 后 一 个 库 是 TFLearn， 该 库 封 装 了 很 多 TensorFlow API。 在 示例 程序 中 , 我 们 了 解 到 如 何 使 
用 TFLearn 估 计 泰 坦 尼克 号 乘客 的 幸存 概率 。 为 完成 这 一 任务 , 我 们 构建 了 深度 神经 网 络 分 类 器 。 


下 一 章 将 介绍 TensorFlow 的 高 级 多 媒体 编程 。 我 们 会 简要 介绍 多 媒体 分 析 的 概念 ， 并 讲解 在 
大 型 数据 集 上 进行 对 象 识别 的 解决 方案 。 另 外 ， 还 会 介绍 优化 TensorFlow 运 算 的 加 速 线性 代数 ， 
以 及 TensorFlow 和 Keras 的 联合 使 用 ， 并 给 出 具体 示例 。 最 后 ， 我 们 会 介绍 在 Android 上 进行 深度 
学 习 的 问题 。 




















TensorFlow 高 级 多 媒体 编程 








本 章 将 讨论 TensorFlow 的 高 级 多 媒体 编程 问题 。 我 们 会 探讨 一 些 新 提出 的 研究 问题 ， 如 基 
于 深度 学 习 的 大 型 对 象 检 测 ， 以 及 使 用 TensorFlow 在 Android 设 备 上 进行 深度 学 习 ， 并 提供 一 些 
示例 。 
本 章 将 讨论 以 下 主题 : 
口 多 媒体 分 析 简 介 
口 基于 深度 学 习 的 大 型 对 象 检测 
口 加 速 线性 代数 
口 TensorFlow 和 Keras 
O Android EARE 

















9.1. 多 媒体 分 析 简 介 


图 像 和 视频 分 析 指 的 是 , 从 图 像 或 视频 中 抽取 有 用 信息 和 模式 的 技术 。 每 天 都 会 有 大 量 图 像 
和 视频 生成 ,能 够 对 如 此 大 量 的 数据 进行 分 析 的 技术 将 非常 有 潜力 。 基 于 此 类 分 析 ， 可 以 为 用 户 
提供 许多 服务 。 

本 章 将 介绍 几 个 关于 图 像 分 析 和 视频 分 析 的 示例 (仅仅 是 一 个 演示 程序 , 用 于 展示 视频 分 析 
和 其 他 复杂 的 深度 学 习 任 务 在 TensorFlow 和 Keras 联 用 的 情况 下 的 表现 )， 并 看 看 如 何 从 中 获取 有 
用 信息 。 
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本 闻 将 学 习 如 何 使 用 TensorFlow 进 行 图 像 识别 ， 还 会 使 用 迁移 学 习 技 术 。 后 者 利用 在 大 型 数 
据 集 ( 如 ImageNet ) 上 预 训 练 的 模型 中 的 网 络 权重 ， 执 行 我 们 的 训练 。 通 常 ， 人 们 在 自己 的 数据 
集 较 小 的 情况 下 会 使 用 迁移 学 习 。 我 们 将 在 相似 问题 上 重 训练 该 模型 ， 因 为 如 果 从 零 开始 训练 ， 
将 会 耗费 几 天 时 间 。 
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TensorFlow 打 包 了 大 量 的 预 训练 模型 ， 供 用 户 进行 自己 的 训练 。 本 节 将 使 用 基于 ImageNet 
( http:/image-net.org/ ) 预 训练 的 Inception V3 网 络 ， 该 网 络 可 以 区 分 1000 个 不 同 的 类 。 


刚 开 始 ， 你 需要 一 系列 图 像 ， 来 告诉 网 络 想 要 识别 的 新 类 型 。TensorFlow 团 队 已 经 创建 了 一 
个 创作 共用 许可 的 花 齐 照片 合集 ， 你 可 以 使 用 这 些 照片 开始 训练 ( 见 图 9-1 )。 








4g 
图 9-1 花卉 数据 集 ( 图 像 来 源 : TensorFlow, JE: https;//www.tensorflow.org/ 
images/daisies.jpg ) 


首先 , 你 需要 一 个 包含 一 系列 图 片 的 数据 集 ， 用 来 教 给 网 络 你 需要 识别 哪些 新 类 别 。 我 们 将 
使 用 TensorFlow 提 供 的 f1ower 数 据 集 : 





# return to the home directory 

cd $HOME 

mkdir tensorflow files 

cd tensorflow files 

curl -O http://download.tensorflow.org/example images/flower photos.tgz 
tar xzf flower photos.tgz 


下 载 这 份 大 小 为 218 MiB 的 flower 数 据 集 后 ， 现 在 需要 在 你 的 home 路 径 下 保存 这 些 花 弄 图 
片 的 一 个 副本 。 


接着 ， 需 要 使 用 以 下 命令 将 TensorFlow 的 仓库 clone 下 来 : 

git clone https://github.com/tensorflow/tensorflow 

完成 该 操作 后 ， 你 已 经 拥有 了 训练 器 和 数据 ， 那 么 可 以 使 用 mception V3 网 络 开 始 训练 了 。 
我 们 开始 时 提 到 过 ，Inception V3 网 络 最 初 是 在 ImageNet 上 训练 的 ， 可 以 区 分 1000 个 不 同 的 
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类 ， 因 此 拥有 成 千 上 万 的 参数 。 此 处 只 训练 Inception V3 网 络 的 最 后 一 层 ， 以 便 用 较 少 的 时 间 完 
成 任务 。 


下 面 开 始 训练 网 络 。 在 TensorFlow 的 根 目录 下 ， 输 入 如 下 命令 : 








#From the root directory of TensorFlow 

python tensorflow/examples/image_retraining/retrain.py \ 
--bottleneck_dir=~/tensorflow_files/bottlenecks \ 
--model_dir=~/tensorflow_files/inception \ 
--output_graph=~/tensorflow_files/retrained_graph.pb \ 
--output_labels=~/tensorflow_files/retrained_labels.txt \ 
--image_dir ~/tensorflow_files/flower_photos 


该 脚本 会 加 载 预 训练 的 Inception v3 模 式 ， 移 除 原 网 络 的 最 后 一 层 , 最 终 在 我 们 提供 的 花卉 照 
片上 训练 出 一 个 新 的 模型 。 


Inception V3 网 络 原先 并 不 是 在 这 些 花 开 品 种 上 训练 出 来 的 ， 但 该 网 络 包 含 的 1000 个 类 的 信 
息 可 以 帮助 识别 新 的 对 象 。 使 用 预 训练 的 网 络 时 , 我 们 就 利用 了 网 络 中 原 有 的 信息 作为 最 后 一 个 
分 类 层 的 输入 ， 最 终 将 花 开 类 别 区 分 开 来 。 





























9.2.1 瓶颈 层 

可 以 看 到 ， 我 们 之 前 的 命令 中 含有 一 个 词 HMJ” (bottleneck )。 这 是 什么 ? 

为 获取 重 训练 网 络 ， 第 一 步 就 是 分 析 我 们 提供 的 所 有 图 像 ， 计 算 每 个 图 像 的 瓶颈 值 。 

我 们 使 用 Inception V3 作 为 预 训练 模型 。Inception V3 含 有 许多 层 ， 各 层 之 间 相 互 琶 加 。 这 些 
层 已 经 被 预 训练 过 ， 因 此 其 中 已 含有 可 以 区 分 图 像 的 信息 。 现 在 只 训练 最 后 一 个 全 连接 层 (输出 
层 之 前 的 那 一 层 )， 所 有 前 面 的 层 都 会 保持 原样 。 

那么 什么 是 瓶颈 层 呢 ? 这 是 TensorFlow 的 一 个 术语 ， 指 的 是 最 后 一 层 ( 负责 分 类 的 层 ) 之 前 
的 那 一 层 。 因 此 ,训练 集中 的 所 有 图 像 在 训练 过 程 中 都 被 使 用 数 次 ， 而 瓶颈 层 之 前 那些 层 的 计算 


在 每 个 图 像 上 会 耗费 大 量 时 间 。 所 以 , 我们 将 低层 的 输出 缓存 在 磁盘 上 ， 这样 可 以 避免 浪费 很 多 
时 间 。 瓶 颈 层 的 默认 保存 路 径 为 /mp/bottleneck。 



























































9.2.2 ”使 用 重 训练 的 模型 


网 刚 使 用 的 重 训练 轩 本 会 得 出 一 个 自 定义 版 本 的 Ineepton V3 网 络 ， 其 最 后 一 层 外 给 fover EHE 
数据 集 使 用 ， 保 存在 tensorflow files/output _ graph.pb 中 。 在 tensorflow files/output labels.txt 中 可 以 
找到 一 个 文本 文件 ， 该 文件 包含 花卉 的 标签 。 


下 面 是 图 像 分 类 的 步骤 。 
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(1) 编写 Python 脚 本 ， 加 载 之 前 的 网 络 ， 并 用 它 分 类 图 像 : 
import tensorflow as tf, sys 

(2) 待 分 类 图 像 作为 一 个 参数 传人 网 络 : 
provided image path = sys.argv[1] 

(3) 读 取 图 像 数据 : 


provided, image data = tf.gfile.FastGFile(provided image path, 
'rb').read() 


(4) 载 入 标签 文件 : 


label_lines = [line.rstrip() for line in\ 
tf.gfile.GFile("tensorflow files/retrained labels.txt")] 














# Unpersists graph from file 
with tf.gfile.FastGFile("tensorflow_files/retrained_graph.pb", \ 
"Eb as E: 
graph def - tf.GraphDef() 
graph, def.ParseFromString(f.read()) 
- tf.import graph def(graph def, name-'') 








with tf.Session() as sess: 
# pass the provided image data as input to the graph 
softmax tensor =\ 
Ssess.graph.get tensor by name('final result:0') 


network predictions = sess.run(softmax tensor, \ 
('DecodeJpeg/contents:0': provided image data)) 


# Sort the result by confidence to show the flower labels accordingly 
top predictions = network predictions[0].argsort()[-^ 
len (network_predictions[0]):][::-1] 


for prediction in top_predictions: 
flower_type = label_lines[prediction] 
score = network_predictions[0] [prediction] 
print('$s (score = $.5f)' $ (flower type, score) ) 


可 以 将 前 面 创 建 的 Python 脚 本 保存 在 你 的 tensorflow_files 路 径 内 。 此 处 将 该 脚本 命名 为 


classify.pyo 


然后 ， 从 你 的 tensorflow_ files 路径 内 运行 以 下 命令 ， 以 分 类 一 张 雏 菊 照 片 : 





python classify_image.py flower_photos/daisy/21652746_cc379e0eea_m. jpg 
得 到 的 输出 应 该 与 下 面 类 似 : 


daisy (score = 0.99071) 
sunflowers (score = 0.00595) 
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dandelion (score = 0.00252) 
roses (score = 0.00049) 
tulips (score = 0.00032) 


注意 , 你 得 到 的 输出 分 数 可 能 和 上 面 有 一 些微 小 的 不 同 。 因 为 如 果 多 次 在 相同 数据 上 训练 相 
同 的 算法 ， 得 到 的 结果 都 会 略 有 不 同 。 





9.3 加速 线 性 代数 


加 速 线性 代数 是 一 个 领域 特定 编译 器 ， 由 TensorFlow 开 发 ， 用 于 加 速 运算 。 通 过 加 速 线性 代 
数 ， 你 可 以 提升 代码 速度 、 减 少 内 存 使 用 ， 甚 至 可 以 改善 移动 平台 上 的 可 移植 性 。 

刚 开 始 ， 你 可 能 不 会 马上 发 现 加 速 线性 代数 的 诸多 好 处 ， 因 为 它 现 在 仍 处 于 测试 阶段 ,但 你 
可 以 尝试 其 准时 编译 和 提前 编译 功能 。 

我 们 首先 简要 介绍 TensorFlow 的 核心 优势 ， 并 看 看 TensorFlow 团 队 是 如 何 克 服 困难 ， 保 持 并 
强化 这 些 核心 优势 的 。 















































9.3.1 TensorFlow 的 核心 优势 
以 下 是 TensorFlow 的 核心 优势 。 


O 灵活 性 : TensorFlow 的 灵活 性 来 源 于 其 解释 性 。 另 外 ， 顾 名 思 义 ，TensorFlow 使 用 的 是 数 
据 流 编程 模式 。TensorFlow 的 工作 方式 是 让 用 户 给 定 一 个 计算 图 , 然后 从 图 中 找到 一 个 可 
运行 的 节点 ， 取 回 该 节点 ， 并 从 该 节点 运行 该 图 。 经 过 一 系列 操作 后 ， 图 中 的 另 一 组 节 
点 又 可 以 被 运行 了 。TensorFlow 便 对 这 些 节点 重复 之 前 的 操作 ， 即 取 回 然后 运行 它们 。 这 
个 取 回 可 运行 节点 并 运行 它们 的 过 程 称 为 解释 器 环 。 

O 表达 性 : TensorFlow 是 动态 的 ， 因 为 它 和 Python 联系 密切 。 因 此 ， 你 拥有 完全 的 表达 性 和 
自由 来 定义 自己 的 图 ， 且 该 过 程 不 受 任 何 限制 。 另 外 , 使 用 TensorFlow 变 量 的 过 程 和 其 他 
环境 下 的 编程 很 类 似 。 

O 可 扩展 性 : TensorFlow 的 一 个 很 大 的 优势 在 于 ， 它 是 一 个 黑箱 模块 。 因 此 ,你 可 以 使 用 全 
新 的 数据 流 操作 ， 并 将 其 添加 到 TensorFlow 上， 而 无 需 担 心 集成 出 问题 。 


总 结 了 TensorFlow 的 这 几 个 核心 优势 后 ， 下 面 看 看 TensorFlow 团 队 如 何 运 用 加 速 线性 代数 的 
准时 编译 ， 在 保持 这 些 优 势 的 前 提 下 提高 速度 。 em 
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9.3.2. 加速 线性 代数 的 准时 编译 
TensorFlow 通 过 加 速 线性 代数 的 准时 编译 技术 加 速 程序 执行 ， 并 让 更 多 设备 得 以 运行 。 
加 速 线 性 代数 的 工作 方式 总 结 如 图 9-2 所 示 。 
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movq (Srdx), Xrax 
vmovaps (%rax), %xmmd 
vmulps %xmm@, Xxmmó, %xmm@ 
vmovaps %xmm@, (%rdi) 


输出 被 优化 、 专 
门 化 的 汇编 语句 














19-2 ”加速 线 性 代数 生命 周期 (图片 来 源 : TensorFlow， 地 址 : http://img.ctolib.com/ 
uploadImg/20170307/20170307064228 586.png ) 


TensorFlowl4] AFF Rik — iE ae AE, LEAP ei A —^ TensorFlowiT $E], £A 
后 得 到 被 优化 和 专门 化 的 汇编 语句 输出 。 


该 编译 器 结构 可 以 接收 一 个 TensorFlow 计 算 图 作为 输入 ， 然 后 输出 该 计算 图 对 应 的 被 优化 和 
专门 化 的 汇编 语句 。 这 是 TensorFlow 团 队 添加 的 一 个 极 好 的 特性 ， 使 你 可 以 生成 不 受 架 构 限 制 的 
被 编译 代码 。 该 代码 被 优化 、 专 门 化 ， 以 适合 你 当前 使 用 的 底层 架构 。 


为 在 你 的 机 器 上 使 用 加 速 线性 代数 ， 需 要 在 配置 TensorFlow 时 进行 手动 设置 。 


运行 以 下 命令 ，clone 最 新 的 TensorFlow 仓 库 : 


$ git clone https://github.com/tensorflow/tensorflow 


然后 ， 使 用 以 下 命令 配置 TensorFlow: 










































































$ cd tensorflow 
$ ./configure 


在 配置 过 程 中 , 配置 文件 会 询问 你 是 否 启用 加 速 线性 代数 。 需 要 回答 “是 ” 才 可 启用 ,并 在 
下 一 个 示例 中 使 用 加 速 线性 代数 。 


为 展示 加 速 线 性 代数 的 工作 方式 ， 我 们 用 TensorFlow shell 进 行 演示 。 
你 需要 打开 一 个 TensorFlow shell 来 运行 下 述 代码 片段 。 首 先 ， 使 用 如 下 命令 选择 粘贴 模式 : 











%cpaste 





CD 此 处 所 说 的 TensorFlow shell 是 谷歌 在 2017TensorFlow 开 发 峰会 ( https://www.youtube.com/watch?v=kAOanJcz 
HA0&feature=youtu.be&t=2m32s ) 上 运行 demo 的 一 个 shell， 是 谷歌 工程 师 用 IPython 修 改制 作 的 一 个 工具 ， 似乎 仅 
做 演示 用 。 谷 歌 并 没有 放出 这 个 shell。 作 者 没有 讲 清 自 己 此 处 讲解 的 TensorFlow shell 出 处 ， 所 以 实际 上 以 下 内 容 
读者 无 法 实践 ， 作 者 只 是 照搬 了 发 布 会 上 的 演示 。StackOverFlow 上 有 人 想 要 复 现 这 一 实验 ， 可 供 读 者 参考 : 
https://stackoverflow.com/questions/42446331/how-to-launch-tensorflow-shell-shown-in-xla-demo。 一 一 译 者 注 
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然后 ， 粘 贴 以 下 示例 : 


with tf.Session() as sess: 
x = tf.placeholder(tf.float32, [4]) 
with tf.device("device:XLA CPU:0"): 
M ETXA 
result = sess.truniy,ix:i[l1.5,0.5,-0.5,-1.5])) 


将 下 列 参数 传 给 TensorFlow shell: 
--xla, dump assembly-true 


此 处 将 该 标识 传 给 shell， 使 其 输出 加 速 线性 代数 生成 的 汇编 语言 代码 。 

















前 述 代码 产生 的 结果 如 下 : 

0x00000000 movq (%rdx), %rax 
0x00000003 vmovaps (Srax), %xmm0 
0x00000007 vmulps %xmm0, £xmm0, %xmm0 
0x0000000b vmovaps Sxmm0, (rdi) 
0x0000000£f retq 


下 面 详细 阐述 该 示例 ， 以 便 读者 更 好 地 理解 该 代码 片段 及 其 汇编 输出 。 


前 面 的 示例 只 取 了 4 个 浮 点 数 ， 并 将 其 相 乘 。 该 例 的 特殊 性 在 于 ， 我 们 明确 地 将 其 分 配 到 加 
速 线性 代数 CPU 设备 上 ， 因 此 ， 编 译 器 在 TensorFlow 内 部 被 视 为 一 个 处 于 特殊 模式 的 设备 。 






































运行 了 前 面 的 代码 段 后 ， 你 会 看 到 输出 几 条 汇编 指令 。 这 些 指令 的 特殊 性 在 于 ， 其 中 没有 循 
YR, 因为 加 速 线性 代数 知道 你 只 需要 让 4 个 数 做 乘法 。 因 此 , 输出 的 汇编 指令 针对 你 的 TensorFlow 
语句 生成 的 计算 图 或 程序 进行 了 专门 化 和 优化 。 























此 外 , 前 面 的 代码 也 可 以 直接 放置 在 加 速 线 性 代数 GPU 设备 上 , 但 此 处 不 会 深入 讲解 这 个 问 
题 。 如 前 所 述 ， 加 速 线性 代数 可 以 在 标准 TensorFlow shell 中 为 CPU 和 GPU 工作 。 


1. 准时 编译 


那么 ， 前 面 提 到 的 准时 编译 究竟 是 怎么 一 回 事 呢 ? 





准时 编译 的 主要 特点 是 ， 让 你 的 程序 在 运行 时 编译 。 因 此 ， 当 你 输入 一 个 TensorFlow 表 达 式 
并 按 回 车 键 后 , 不 需要 自己 花 时 间 思 考 如 何 进行 编译 以 减少 开销 。 正 如 前 面 的 例子 所 示 ， 只 需 按 
回 车 键 ， 便 可 生成 汇编 指令 。 



























































准时 编译 的 另 一 个 优势 是 ， 你 可 以 在 代码 比较 靠 后 的 位 置 绑 定 变量 。 








例如 ， 你 不 需要 在 代码 起 始 处 就 指定 数据 的 批 大 小 ， 而 可 以 在 确定 合适 的 值 后 再 指定 。 





因此 ， 查 看 基本 的 TensorFlow 等 级 框图 ( 图 9-3 ) 可 以 看 到 TensorFlow 的 核心 ， 并 看 到 加 速 线 
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性 代数 位 于 TensorFlow 生 态 系 统 的 右 下 方 。 





TF 等 级 框图 






TensorF low 
Existing TensorFlow Core 





图 9-3 TensorFlow 等 级 框图 (来 源 : TensorFlow 开 发 者 大 会 ) 
2. 加 速 线性 代数 及 其 优势 

TensorFlow 的 爱好 者 非常 看 好 加 速 线性 代数 的 准时 编译 这 一 新 特性 。 
下 面 是 该 特性 的 关键 优势 。 


























口 服务 器 端 加 速 : 通过 准时 编译 和 专门 化 , TensorFlow 可 将 一 些 内 部 模型 提速 达 60%。 另 外 ， 
SyntaxNet 的 等 待 时 间 由 200 微 秒 上 下 减少 至 5 微 秒 。 原 因 是 SyntaxNet 的 计算 图 含有 许多 很 
小 的 操作 ， 所 以 解释 器 需要 抓 取 每 一 个 小 操作 。 这 一 抓 取 过 程 会 频繁 产生 一 些 等 待 时 间 ， 
但 如 果 你 使 用 了 编译 功能 ， 这 些 零碎 的 等 待 时 间 便 都 可 以 消除 。 

O 优化 内 存 使 用 : 通过 消除 很 多 中 间 存 储 缓冲 ，TensorFlow 可 以 优化 内 存 的 使 用 ,因此 ,你 

可 以 在 更 多 性 能 有 限 的 架构 ( 如 移动 架构 ) 上 进行 深度 学 习 。 

口 为 移动 设备 减少 空间 占用 : 使 用 加 速 线性 代数 的 提前 编译 技术 ， 可 以 将 一 开始 就 准备 执 
行 的 模型 编译 为 可 执行 文件 。 通过 命令 行 运行 该 可 执行 文件 , 可 以 大 量 缩短 TensorFlow 的 
运行 时 间 。 另 外 , 还 可 以 减 小 程序 的 二 进 制 大 小 。TensorFlow 团 队 已 在 一 个 移动 端的 长 短 
期 记忆 网 络 模型 上 测试 了 该 特性 ,可 以 将 其 二 进 制 大 小 由 2.6 MiB 减 少 到 小 于 600 KiB. 这 
意味 着 ， 需 要 调配 的 空间 减少 了 3/4。 这 种 优化 得 益 于 ， 使 用 加 速 线性 代数 并 遵守 一 些 
TensorFlow 代 码 的 编写 技巧 (https://www.tensorflow.org/performance/performance guide ). 

OQ 方便 对 整个 程序 进行 分 析 : 加 速 线 性 代数 中 最 常规 的 激动 人 心 的 特性 是 ， 编 译 器 架构 使 
得 整个 计算 图 或 程序 的 分 析 更 加 简便 。TensorFlow 团 队 开 发 的 加 速 线 性 代数 高 层 优 化 器 可 
以 用 来 查看 线性 代数 层级 的 计算 图 ， 并 创建 一 个 可 复 用 的 全 局 优化 工具 包 ， 并 作用 在 计 
算 图 上 。 因 此 ， 即 使 你 在 不 同 的 平台 、CPU 、GPU 或 其 他 设备 上 进行 编译 ，TensorFlow 仍 
可 以 利用 这 一 高 层 优化 工具 包 生 成 专门 针对 该 平台 的 汇编 命令 。 


3. 加 速 线性 代数 的 底层 工作 模式 


加 速 线 性 代数 的 输入 语言 叫 作 HLO IR， 或 称 为 高 层 优化 器 。 加 速 线性 代数 将 HLO 定 义 的 计 
算 图 作为 输入 ， 然 后 将 其 编译 为 不 同 架 构 的 机 器 指令 。 
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流程 图 9-4 展 示 了 加 速 线 性 代数 的 编译 过 程 。 


目标 独立 的 优化 和 分 析 














依赖 于 目标 的 优化 和 分 析 


针对 目标 的 代码 生成 











加速 线 性 代数 后 并 





图 9-4 ”加 速 线 性 代数 编译 过 程 ( 来源: https://www.tensorflow.org/images/how-does- 
xla-work.png ) 
正如 我 们 前 面 讨论 的 ，TensorFlow 使 用 HLO 的 目的 是 ， 提 供 独 立 于 目标 的 代码 。 因 此 ， 
TensorFlow 在 这 一 步骤 会 不 受 目 标 限 制 地 优化 程序 。 然 后 ，TensorFlow 使 用 另 一 个 HLO 来 输出 依 
赖 于 目标 的 、 被 优化 和 专门 化 了 的 代码 , 并 将 这 些 代 码 最 终 馈 给 加 速 线性 代数 后 端 ， 以 生成 针对 
目标 的 代码 。 
4. 加 速 线性 代数 仍 处 于 测试 阶段 


在 本 书 的 写作 阶段 ， 并 非 所 有 TensorFlow 操 作 都 能 被 编译 ， 因 为 加 速 线性 代数 的 准时 编译 功 
能 才 开 发 不 入 。 随 着 TensorFlow 社 区 的 增长 ,我们 希望 这 一 特性 能 够 尽快 得 到 完善 和 支持 。 


5. 支持 的 平台 


当前 ， 加 速 线 性 代数 支持 在 x86-64 和 NVIDIA GPU 上 的 准时 编译 ， 并 支持 x86-64 和 ARM 架 构 
上 的 AOT 编 译 。 
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6. 更 多 体验 材料 
若 希 望 获取 更 多 关于 加 速 线性 代数 准时 编译 的 体验 材料 , 或 想 要 了 解 如 何在 自己 的 会 话 中 启 


用 该 特性 ， 请 参考 TensorFlow 网 站 : https://www.tensorflow.org/performance/xla/jit. 











9.4 TensorFlow 和 Keras 


本 节 中 将 着 手 研究 一 个 对 数据 科学 家 和 机 器 学 习 爱 好 者 都 非常 重要 的 特性 一 一 TensorFlow 
和 Keras 的 联 用 ， 如 图 9-5 所 示 。 有 了 这 个 特性 ， 你 就 可 以 仅 用 寥寥 几 行 代码 构建 非常 复杂 的 深度 
学 习 系统 。 














-- 


TensorFlow 


图 9-5 TensorFlow 与 Keras 的 联 用 (来源: https://blog.keras.io/img/keras-tensorflow-logo.jpg ) 

















9.4.1 Keras 简介 











Keras 是 一 个 API， 可 以 使 深度 学 习 模型 的 使 用 和 构建 变 得 简单 快捷 。 可 以 说 , 它 就 是 一 个 深 
度 学 习 工 具 箱 ， 其 特点 如 下 : 
口 易 用 性 


口 降低 复杂 性 
O JP CRI T 


使 深度 学 习 更 易 用 的 意思 是 ， 让 更 多 的 人 可 以 使 用 它 。 因 此 ，Keras 的 核心 设计 理念 便 是 让 
所 有 人 都 能 学 会 深度 学 习 。 

所 以 ，Keras 更 像 一 个 拥有 数 个 实现 的 API。Keras 最 初 发 布 时 是 针对 Theano 框 架 的 ， 现 在 也 
有 了 TensorFlow 实 现 ， 未 来 还 会 兼容 更 多 平台 。 


TensorFlow 所 做 的 是 ， 将 Keras API 添 加 到 TensorFlow 项 目 中 ,使 TensorFlow 和 Keras 的 优点 结 
合 起 来 ， 从 而 让 每 个 人 都 能 学 会 深度 学 习 。 





























9.4 TensorFlow 和 Keras 203 





9.4.2 拥有 Keras 的 好 处 


我 们 已 经 说 过 ，TensorFlow 将 Keras 的 API 添 加 到 TensorFlow 项 目 中 。 这 样 ， 你 就 可 以 得 到 如 
下 好 处 : 


(1) Keras 的 兼容 性 模块 tf .keras 作 为 Keras 规 范 的 一 个 实现 被 引入 TensorFlow ， 该 模块 是 针 
对 TensorFlow 从 零 开始 构建 的 ; 


(2) 为 TensorFlow 核 心 引 入 了 新 的 数据 结构 ， 如 网 络 层 ; 


(3) 另外 ， 作 为 网 络 层 计算 图 容器 的 模型 之 前 是 Keras 的 数据 结构 ， 现 在 可 以 在 TensorFlow 核 
心 和 tf .keras 模 块 间 共 享 ; 






































(4) 最 后 ， 和 测试 API 一 样 ，Keras 与 所 有 TensorFlow 高 级 特性 完全 兼容 。 


























因此 ， 如 果 你 恰巧 同时 是 Keras 和 TensorFlow 的 用 户 ， 那 么 将 二 者 联 用 会 产生 何 种 效应 ? 
将 Keras 直 接 与 TensorFlow 的 核心 聚合 ， 作 为 Keras 用 户 的 你 将 获得 以 下 好 处 。 


口 可 以 直接 将 纯 TensorFlow 和 纯 Keras 的 功能 混合 、 配 对 。 
口 男 外 ， 可 以 访问 更 多 高 级 的 、 强 大 的 特性 ， 例 如 : 
wy UIA 
u zb 
m 超 参 数 调 优 
m 用 于 将 TensorFlow 模 型 部 署 生产 的 TF-serving 服 务 
当然 ， 作 为 一 个 TensorFlow 用 户 ， 你 拥有 以 下 核心 优势 。 
(1) 你 可 以 访问 Keras API 的 全 部 ， 用 以 简化 你 的 开发 流程 ， 而 不 需要 改变 已 有 的 TensorFlow 
工作 流 。 
(2) 使 用 Keras API 不 会 丢失 任何 灵活 性 ， 因 为 你 不 需要 对 Keras 的 全 部 功能 都 很 熟悉 。 只 要 选 
用 你 需要 的 层 即 可 。 
(3) 另外 ， 你 可 以 访问 所 有 Keras 已 有 的 开源 代码 。 随 便 抓 一 段 Keras 代 码 扔 到 你 的 代码 基 中 ， 
只 需 改 一 下 导入 库 ， 代 码 便 可 正常 运行 。 
为 使 叙述 更 加 简单 有 趣 ， 下 面 通过 例子 了 解 一 下 Keras 和 TensorFlow 联 用 时 的 工作 流 。 






































9.4.3 ”视频 问答 系统 
以 下 代码 的 作用 是 建立 一 个 视频 问答 模型 。 我 们 将 使 用 Keras 定 义 该 模型 。 
为 解决 这 一 问题 ， 我 们 在 分 布 式 环境 下 使 用 高 层 TensorFlow 进 行 训练 。 
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可 以 看 到 ， 我 们 有 一 些 被 抽样 为 4 帧 / 秒 的 视频 ， 每 个 视频 大 约 10 秒 钟 ， 因 此 每 个 视频 大 约 共 
有 40 帧 。 我 们 要 询问 视频 内 容 相关 的 问题 ， 如 图 9-6 所 示 。 






































Nr m a. 
问 : 谁 在 努力 保持 平衡 ? fa]: 谁 突然 发 现 自己 在 抢 自己 的 围 h? Ail: 那个 人 倒 翻 筋 斗 成 功 了 吗 ? 
Ei AA 答 : 那个 女人 答 : 没有 t A 
H: 它 掉 下 去 了 吗 ? 问 ， 谁 在 抢夺 游客 的 围巾 ? i M 
答 : 是 的 1 us 答 : 沙 
问 ， 可爱 的 小 猫 有 没有 跳 到 人 的 手 上 ? E: IR Li]; 那个 人 有 没有 尝试 倒 翻 筋 斗 翻 下 跳水 板 ? 
答 : 没有 | 答 : 没有 








图 9-6 ”视频 问答 
我 们 要 建立 一 个 深度 学 习 模型 ， 输入 如 下 。 


口 视频 : 被 表示 为 一 个 帧 序列 ， 因 此 约 为 40 个 有 序 的 帧 。 
口 问题 : 一 个 单词 序列 ， 询 问 视 频 内 容 相关 的 问题 。 


模型 将 会 输出 该 问题 的 答案 。 











这 是 一 个 非常 有 趣 且 困难 的 问题 , 因为 如 果 你 尝试 只 取 一 帧 来 训练 CNN, 得 到 的 模型 只 能 ， 
该 帧 中 的 视觉 信息 建 模 , 这 些 信息 可 能 无 法 代表 整个 视频 。 如 果 使 用 整个 视频 中 的 所 有 帧 或 只 用 
它们 的 抽样 ， 则 必须 要 为 这 些 帧 建 模 并 整合 帧 中 不 同 的 信息 源 以 理解 上 下 文 。 因 此 ,你 需要 训练 
深度 学 习 模 型 ， 使 其 可 以 从 帧 的 顺序 中 获取 信息 ， 以 正确 回答 问题 。 


这 类 问题 在 前 几 年 非常 困难 ， 许 多 研究 者 都 无 法 解决 。 而 现在 ， 有 了 TensorFlow 作 为 平台 ， 
Keras 作 为 API， 任 何 具 有 基本 Python 脚本 编写 能 力 的 人 都 可 以 解决 该 问题 。 


图 9-7 就 是 我 们 将 要 采用 并 详细 解释 的 模型 。 

























































































可 答 单 词 
fl 
BEE 
fl 
CS >) 
71tN 
CNN CNN CNN C fA D 
f 1 了 
[m] [m] w] 
Sr 问题 
图 9-7 通用 视频 问答 架构 
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该 架构 的 高 层 有 两 个 主要 分 支 ， 第 一 个 分 支 的 作用 为 ,将 视频 中 的 帧 编码 为 一 个 向 量 ; 男 一 
个 分 支 负责 将 问题 一 一 即 一 个 单词 序列 一 一 编码 为 一 个 向 量 。 因 此 , 我 们 有 一 个 编码 了 整个 视频 
信息 的 向 量 ， 和 一 个 编码 了 所 有 问题 的 向 量 。 然 后 将 二 者 相连 ， 得 到 一 个 大 一 些 的 向 量 ， 其 中 编 
码 了 整个 问题 的 所 有 信息 。 


该 深度 学 习 架 构 有 一 个 有 趣 的 特点 ， 即 我 们 的 输入 既 包 含 视频 , 也 包含 问题 的 语义 信息 。 然 
后 将 视频 和 语义 信息 转换 为 向 量 映射 到 几何 空间 , 之 后 让 深度 学 习 去 学 习 这 个 几何 空间 里 的 一 些 
有 趣 的 变换 。 接 着 将 向 量 连接 起 来 , 获取 视频 和 问题 的 编码 信息 , 随后 将 其 传人 一 个 全 连接 网 络 。 
该 网 络 的 最 后 一 层 为 一 个 含有 预 设 词汇 的 softmax 分 类 层 。 最 终 ， 我 们 选取 词汇 中 概率 最 大 的 单 
词 来 回答 问题 。 

下 面 更 详细 地 讲解 该 架构 模型 。 

对 于 视频 分 支 ,我 们 将 视频 视 为 一 个 帧 序列 ， 每 个 帧 都 只 是 一 个 RGB 网 像 。 然 后 ,将 每 个 帧 
传人 一 个 CNN, 使 其 转换 为 一 个 向 量 。 使 用 预 训练 网 络 作 为 CNN 的 基 。 将 所 有 帧 传 给 一 系列 CNN 
后 ， 就 能 获得 视频 编码 的 一 系列 向 量 。 然 后 将 这 一 系列 向 量 僻 给 LSTM (一 种 循环 网 络 ， 可 以 处 
理 时 序 信息 ， 会 将 顺序 纳入 考虑 范围 )， 该 网 络 会 输出 一 个 代表 视频 的 向 量 。 

对 于 问题 分 支 ,我 们 的 处 理 方式 比较 简单 。 将 问题 表示 为 一 个 整 型 序列 ， 其 中 每 个 整数 代表 
一 个 单词 。 然 后 使 用 词 杠 入 方法 , 将 每 个 单词 映射 到 一 个 单词 向 量 内 ,此 时 就 从 这 个 单词 序列 中 
获得 了 一 个 向 量 序列 。 最 后 ， 将 其 馈 给 男 一 个 LSTM， 该 网 络 将 整个 问题 编码 为 一 个 向 量 。 


现在 看 看 前 述 架 构 在 Keras 上 的 表示 ， 如 图 9-8 所 示 。 
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图 9-8 ”Keras 视 频 问 答 架 构 
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该 Keras 架 构 和 之 前 的 那个 很 类 似 。 对 于 视频 编码 器 ， 首 先 将 视频 表示 为 一 个 五 维 张 量 ， 其 
中 第 一 个 维度 / 轴 为 批量 分 量 ， 第 二 个 为 时 间 分 量 ， 最 后 会 有 一 个 三 维 张 量 编码 帧 信息 。 

将 已 在 ImageNet 上 预 训练 过 的 Inception V3 网 络 应 用 到 每 个 帧 的 五 维 向 量 上 ， 从 每 个 帧 抽取 
一 个 向 量 。 完 成 这 一 操作 后 ， 会 获得 一 个 向 量 序列 。 该 序列 接 下 来 会 被 馈 给 LSTM， 其 输出 层 将 
生成 一 个 视频 向 量 。 

对 于 问题 部 分 ， 仅 使 用 一 个 能 人 层 来 映射 问题 。 同 样 ， 将 让 入 结果 馈 给 LSTM 网 络 ， 生 成 一 
个 向 量 。 

在 顶端 , 使 用 一 个 连接 操作 将 两 个 向 量 连 接 到 一 起 。 然 后, 在 其 上 堆 上 一 系列 稠密 层 。 最 后 ， 
在 最 上 面 放置 一 个 softmax 分 类 器 ， 类 标签 为 预定 义 的 一 系列 词汇 。 将 训练 目标 回答 单词 编码 为 
一 个 独 热 向 量 。 


上 述 模型 实现 如 下 : 





[umi 





























video - tf.keras.layers.Input(shape-(None, 150, 150, 3)) 

cnn = tk.keras.applications.InceptionV3 (weights='imagenet', \ 
include_top=False, \ 
pool='avg') 

cnn.trainable = False 

encodedframes = tk.keras.TimeDistributed(cnn) (video) 

encoded_vid = tf.layers.LSTM(256) (encoded_frames) 


前 面 的 代码 段 仅 用 5$ 行 代码 便 实 现 了 视频 编码 操作 。 

第 一 行 仅 指 定 了 视频 输入 的 形状 。 这 是 一 个 五 维 张 量 , 含有 形状 参数 , 但 现在 不 用 明确 指定 
批 大 小 。 第 一 轴 为 时 间 分 量 ,， 被 设置 为 none， 因 为 我 们 希望 模型 可 以 编码 含有 不 同 数 量 的 帧 的 
视频 。 形 状 参数 为 150 x 150 的 RGB 图 像 。 

第 二 行 实例 化 了 Inception V3 网 络 ， 会 自动 加 载 预 训练 的 权重 ( 在 ImageNet 上 训练 )。 将 该 网 
络 用 作 特 征 抽 取 层 ， 所 以 不 会 使 用 Inception V3 网 络 的 分 类 器 部 分 ， 因 为 只 需要 其 卷 积 基 。 最 后 ， 
在 瓶颈 层 之 上 应 用 平均 池 化 操作 。 该 行 的 输出 为 对 应 于 每 个 图 片 / 帧 的 向 量 。 

可 能 有 人 会 问 ， 为 什么 要 用 预 训练 的 Inception V3 模型 ? 原因 在 于 ， 我 们 处 理 的 是 一 个 小 型 
数据 集 ， 该 数据 集 的 数据 量 太 小 ， 不 足以 使 你 训练 抽取 有 趣 的 视觉 特征 。 

因此 ， 为 使 该 网 络 能 在 实际 工作 中 具有 良好 表现 ， 需 要 利用 这 些 预 训练 的 权重 。 


第 三 行将 CNN 设 置 为 不 可 训练 的 , 意 为 在 训练 过 程 中 不 会 更 新 权重 。 这 是 因为 , 由 于 使 用 了 
预 训练 网 络 , 所 以 如 果 在 训练 这 一 问 管 系统 时 对 权重 进行 更 新 , 那么 可 能 破坏 该 模型 在 ImageNet 
上 已 学 习 到 的 表示 。 


第 四 行使 用 了 一 个 时 间 分 布 层 获 取 该 CNN, 并 将 其 应 用 到 视频 时 间 轴 的 每 一 步 。 这 一 步 的 输 
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出 是 一 个 三 维 张 量 ， 表 示 从 帧 中 抽取 的 一 系列 视觉 癌 量 。 


第 五 行将 这 一 序列 张 量 馈 给 LSTM 层 并 运行 。 这 一 步 的 输出 是 编码 了 整个 视频 信息 的 一 
个 向 量 。 

可 以 注意 到 ， 实 例 化 Keras LSTM 层 时 ， 只 需 指 定 一 个 参数 ， 即 LSTM 层 中 的 神经 元 数量 。 因 
此 , 不 需要 了 解 LSTM 的 复杂 细节 。Keras 的 一 个 原则 是 ， 要 使 用 实际 效果 最 好 的 模型 ， 所 以 keras 
的 每 一 个 层 的 模式 设置 都 是 最 优 的 ， 发挥 了 这 些 最 优 模型 的 优势 。 所 以 ,你 可 以 只 用 默认 设置 就 
能 获得 良好 的 结果 。 


对 于 问答 部 分 ， 我 们 使 用 以 下 3 行 代码 对 问题 进行 编码 : 


question = tk.keras.layers.Input(shape-(100),dtype-'int32') 
x = tf.keras.layers.Embedding(10000,256,mask_zero=true) (question) 
encoded q = tf.keras.layers.LSTM(128) (x) 


第 一 行 指 定 了 问题 的 输入 张 量 。 每 个 问题 都 被 表示 为 一 个 含有 100 个 整 型 的 序列 ， 所 以 输出 
的 结果 只 能 回答 最 多 100 个 单词 的 问题 。 


第 二 行 利用 可 入 层 将 每 个 整 型 藤 入 到 一 个 词 向 量 中 。 将 租 入 层 的 masking 设 置 开启 ， 意 为 如 
果 问 题 的 长 度 不 到 100 词 ， 则 会 用 0 填充 单词 向 量 ， 使 其 长 度 达到 100。 


三 行将 上 面 获得 的 向 量 传 STM 层 ， 用 以 将 这 一 系列 词 向 量 编码 为 一 整个 向 量 。 
最 后 ， 通 过 以 下 代码 获取 答案 单词 : 


x = tk.keras.layers.concat([encoded vid, encoded_q] ) 
x = tf. keras.layers.Dense(128, activation=tf.nn.relu) (x) 
outputs = tf.keras.layers.Dense(1000) (x) 


第 一 行将 视频 向 量 和 问题 向 量 取出 , 并 使 用 一 个 连接 命令 将 它们 连接 在 一 起 , 最 后 在 其 上 添 
加 一 系列 致密 层 。 最 后 获得 了 1000 个 单元 ， 因 此 词汇 表 上 仅 包含 1000 个 不 同 的 单词 。 


以 下 是 对 训练 进行 设 定 的 步骤 : 


model = tk.keras.models.Model(, ouputs) 
model.compile(optimizer=tf.AdamOptimizer(),\ 
loss=tf.softmax_crossentropy_with_logits) 


此 处 只 将 一 个 模型 进行 了 实例 化 , 该 模型 是 一 系列 网 络 层 的 计算 网 的 容器 。 在 实例 化 的 过 程 
中 ， 仅 仅 指定 了 模型 的 输入 、 输 出 ， 为 模型 设置 了 Adaqamopt imizez 作 为 训练 过 程 中 的 优化 器 ， 
Ji FA softmax X A Mi ( softmax cross entropy with logits ) 作为 损失 函数 。 

可 以 观察 到 ,我 们 仅 为 分 类 层 指定 了 1000 个 单元 , 而 没有 同时 指定 激活 函数 ， 因 此 该 层 实际 
上 是 纯 线 性 的 。softmax 激 活 将 会 包含 在 损失 函数 中 。 


以 下 是 该 模型 的 完整 代码 ， 总 共 大 约 15 行 。 代 码 非常 简短 。 因 此 , 我 们 实际 上 将 这 一 非常 复 
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杂 的 架构 一 一 包括 载 入 预 训练 权重 的 过 程 一 转换 为 了 寥寥 几 行 代码 : 


video = tf.keras.layers.Input (shape=(None, 150, 150, 3)) 

cnn = tk.keras.applications.InceptionV3 (weights='imagenet', \ 
include_top=False, \ 
pool='avg') 


cnn.trainable = False 
encodedframes = tk.keras.TimeDistributed(cnn) (video) 
encoded_vid = tf.layers.LSTM(256) (encoded_frames) 


question = tk.keras.layers.Input (shape=(100) ,dtype='int32') 
x = tf.keras.layers.Embedding(10000,256,mask zero-true) (question) 
encoded_q = tf.keras.layers.LSTM(128) (x) 


x = tk.keras.layers.concat([encoded vid, encoded_q] ) 
x = tf.keras.layers.Dense(128, activation=tf.nn.relu) (x) 
outputs = tf.keras.layers.Dense(1000) (x) 


model = tk.keras.models.Model(, ouputs) 
model.compile(optimizer=tf.AdamOptimizer(),\ 
loss=tf.softmax_crossentropy_with_logits) 


PONTE, m TiXxKerasScHUefIJ TensorFlow MAF tata ER, ATLA 5j TensorFlow 
AUPE RIA eA PISCE IRA. AL, (U4 RS BI SE 5 f5—- i TensorFlow3k 4, £A 
后 便 可 使 用 云 服 务 器 上 的 分 布 式 训练 等 功能 。 


所 以 ， 仅 通过 几 行 代码 即 可 用 pandas 数 据 框架 读 取 问答 模型 中 的 视频 数据 、 问 答 数 据 ， 然 后 
在 GPU 集群 上 运行 你 的 实验 : 








train_panda_dataframe = pandas.read_hdf(...) 


train inputs = tf.inputs.pandas_input_fn(\ 
train_panda_dataframe, \ 
batch_size=32,\ 
shuffle=True, \ 
target_column='answer' ) 


eval inputs = tf.inputs.pandas input fn(...) 


exp = tf.training.Experiment (\ 
model, \ 
train_input_fn=train_inputs, \ 
eval_input_fn=eval_inputs) 





exp.run(...) 

无 法 运行 的 代码 

我 们 前 面 提 到 的 代码 当前 不 一 定 全 部 都 能 运行 ， 但 这 些 模 块 (tf.keras ) 很 快 就 会 上 线 ， 
届时 你 就 可 以 仅 使 用 15 行 代码 完成 视频 分 析 。 





9.5 Android 上 的 深度 学 习 209 





可 以 参考 Keras 2017 春 季 产 品 路 线 图 ( https://github.com/fchollet/keras/issues/5299 ) 查看 
tf.keras 和 tf.contrib 的 可 用 性 。 


9.5 Android 上 的 深度 学 习 


你 可 能 会 问 ,为 什么 要 在 Android 上 进行 深度 学 习 ? 深度 学 习 和 TensorFlow 难 道 不 就 应 该 工 
作 在 大 型 数据 中 心 的 大 量 GPU 集 群 上 吗 ? 这 个 问题 的 答案 当然 是 肯定 的 ， 但 在 Android 上 进行 
深度 学 习 也 是 一 个 很 好 的 方法 ， 可 以 通过 在 移动 设备 上 的 交互 运行 为 用 户 提供 独特 的 、 前 所 未 
有 的 体验 。 

移动 应 用 拥有 巨大 的 潜力 , 因为 人 们 每 天 都 在 使 用 移动 设备 。 你 可 以 基于 深度 学 习 开 发 许多 
应 用 ， 从 实时 翻译 、 输 入 法 词汇 预测 、 帮 助人 们 浏览 旧 照 片 的 照片 浏览 器 ， 到 SnapChat 上 的 一 些 
有 趣 的 事实 化 产品 。 你 也 可 以 开发 医学 手机 应 用 ， 帮 助人 们 诊断 疾病 等 。 

现在 ，TensorFlow 还 没 能 支持 所 有 设备 ， 此 处 只 讲解 Android 部 分 。TensorFlow 现 在 支持 的 设 
备 有 : 
QO) Android 
O iOS 
口 Raspberry PI 


随 着 TensorFlow 社 区 的 不 断 扩 大 ， 将 来 会 支持 更 多 设备 。 



































9.5.1 TensorFlow 演示 程序 








TensorFlow 中 自 带 Android 演 示 程 序 ， 其 设计 目的 在 于 帮助 你 了 解 ， 使 用 TensorFlow 可 以 完成 
哪些 任务 。 如 果 你 希望 了 解 更 多 关于 优化 应 用 的 信息 ， 可 以 从 这 些 演示 程序 人 门 。 


TensorFlow 提 供 的 演示 程序 给 出 了 在 移动 应 用 上 使 用 TensorFlow 的 直观 例子 。 下 面 列 出 当前 
已 经 可 以 直接 在 Android 设 备 上 使 用 的 程序 示例 。 


O TF 分 类 (图 9-9 ) : 这 是 一 个 分 类 示例 ， 其 作用 是 载 入 一 个 实时 相机 ， 并 用 Inception V3 
网 络 识别 相机 中 的 图 像 。 该 样本 对 于 ImageNet ( http:/www.image-net.org/ ) 上 已 出 现 过 的 
物体 的 识别 效果 很 好 。 有 关 该 示例 的 一 个 关键 是 ， 实 际 上 可 以 使 用 它 在 Inception V3 上 用 
你 需要 的 图 片 训练 自己 的 模型 ， 然 后 将 其 直接 加 入 该 示例 ， 这 样 就 用 很 少 的 代码 构建 了 
一 个 自己 的 图 像 识 别 App。 你 可 能 会 注意 到 ， 如果 使 用 原始 的 ImageNet 模 型 拿 摄像 涉 对 着 
人 ， 应 用 会 识别 出 乱七八糟 的 结果 ， 因 为 ImageNet 上 并 没有 人 的 图 像 和 标签 。 因 此 ， 如 
果 拿 摄像 头 对 着 人 ， 应 用 会 输出 经 常 与 人 一 起 出 现 的 物品 ， 如 安全 带 等 。 如 果 你 希望 识 
别人 像 ， 则 需要 使 用 下 面 这 个 例 程 。 
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图 9-9 ”在 Android 上 运行 TF 分 类 的 示例 结果 (来源: https://github.com/tensorflow/tensorflow/ 
blob/master/tensorflow/examples/android/sample images/classify l.jpg ) 
口 TF 探测 ( 图 9-10 ) : 该 示例 的 作用 是 ， 在 实时 相机 能 够 识别 出 的 人 像 周围 绘制 选 框 。 应 
用 使 用 了 追踪 技术 以 获得 较 高 的 帧 率 ， 并 识别 每 一 帧 中 的 对 象 。 














图 9-10 在 Android 上 运行 TF 探 测 的 示例 结果 (来源 : https://github.com/tensorflow/tensorflow/ 
blob/master/tensorflow/examples/android/sample_images/detectl jpg ) 
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O TF 风格 化 (图 9-11 ) : Magenta 团 体 的 主要 工作 就 是 风格 化 和 风格 迁移 。 可 以 使 用 被 风格 化 
的 样本 在 手机 上 实时 运行 该 示例 ， 并 可 以 使 用 滚动 条 选取 并 混合 不 同 风格 。 由 于 该 示例 为 
Magenta 模 型 集合 中 的 一 部 分 ， 所 以 可 以 直接 从 https://github.conytensorflow/magenta/tree/ 
master/magenta/ models/image_stylization 下 载 该 模型 ， 并 用 各 种 你 喜欢 的 风格 对 其 进行 训练 。 




















图 9-11 在 Android 上 运行 TF 风格 化 的 示例 结果 (来源: https://github.com/tensorflow/tensorflow/ 
raw/master/tensorflow/examples/android/sample images/stylizel.jpg ) 


9.5.2 Android AT] 


我 们 前 面 提 到 过 ， 本 书 只 介绍 Android 部 分 。 下 面 首先 介绍 ， 若 要 运行 Android 示 例 程 序 需 要 
哪些 一 般 步骤 ， 然 后 讲解 具体 的 例子 。 


1. 架构 要 求 


TensorFlow 提 到 :“ 由 于 使 用 了 camera2 API， 所 以 ， 若 要 运行 演示 程序 ， 则 需要 装 有 Android 
5.0 (API21 ) 及 其 以 上 版 本 的 设备 。 原 始 的 库 本 身 可 以 运行 在 API >= 14 的 设备 上 。” 








2. 预 编译 的 APK 





如 果 想 立即 尝试 运行 演示 程序 ， 可 以 直接 在 https://ci.tensorflow.org/view/Nightly/job/nightly- 
android/ 下 载 其 每 夜 更 新 版 本 。 进 入 Last Successful Artifacts 标 签 ， 然 后 进入 out 文 件 来 ， 找 到 
tensorflow_demo.apk 文 件 。 也 可 以 使 用 它 作 为 你 自己 的 应 用 的 预 编译 原始 库 。 
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转 到 以 下 网 址 , 获取 更 多 细节 : https://github.com/tensorflow/tensorflow/blob/master/tensorflow/ 
contrib/android/README.md, 


3. 运行 演示 程序 

下 载 并 安装 App 之 后 ， 单 击 图 标 启动 (TF 分 类 、TF 探 测 或 TF 风格 化 )。 

运行 活动 时 ， 可 以 按压 设备 上 的 音量 键 来 开启 /关闭 调试 可 视 化 选项 。 该 选项 开启 时 ， 会 在 
屏幕 上 显示 额外 信息 ， 有 助 于 开发 和 调试 。 

4. 使 用 Android Studio 进 行 编译 


如 果 你 是 Android 开 发 者 ， 可 能 会 使 用 Android Studio 作 为 开发 工具 。 只 需 几 个 简单 的 步骤 ， 
你 就 可 以 直接 在 Android Studio 上 编译 TensorFlow。 























TensorFlow 的 所 有 Android 示 例 都 依赖 于 Bazel ( 这 是 TensorFlow 用 来 编译 Android 应 用 的 编译 
系 2 j Ja 


为 在 Android Studio 中 运行 Android 示 例 ， 需 要 完成 以 下 步 又。 


a 修改 编译 脚本 ,为 TensorFlow 指 定 Baze] 路 径 。 该 编译 脚本 的 名 称 为 puilda.gradqle, 可 以 
在 tensorflow/examples/android/build.gradle 中 找到 。 
口 然后 ， 将 例 程 文件 夹 作为 一 个 新 项 目 添加 到 Android Studio， 即 可 进行 编译 。 


完成 前 述 两 个 步骤 后 , 你 就 会 从 Android Studio 中 得 到 .apk 文 件 , 然后 可 以 立即 在 任意 Android 
设备 上 使 用 该 文件 。 
5. 更 进一步 一 一 使 用 Bazel 编 译 


现在 要 完成 一 个 具体 例子 ， 从 头 开 始 操作 ， 直 到 获得 .apk 文 件 ， 并 在 你 的 设备 上 运行 。 我 们 
使 用 Bazel 完 成 该 任务 。 


首先 ， 使 用 以 下 命令 对 TensorFlow 仓 库 进 行 clone: 










































































git clone --recurse-submodules https://github.com/tensorflow/tensorflow.git 


T 此 处 需要 使 用 recurse 子 模块 ， 避 免 编 译 中 可 能 出 现 的 一 些 问 题 。 




















接 下 来 ,需要 安装 Bazel ( 这 是 TensorFlow 用 来 编译 程序 的 编译 系统 ， 地 址 为 https://bazel.build/ ) 
和 Android 的 一 些 必要 组 件 。 








O 按照 https://bazel.build/versions/master/docs/install.html 的 安装 方法 ， 安 装 最 新 版 本 Bazel。 
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O 为 编译 C++ 部 分 ， 需 要 安装 Android NDK。 推 荐 版 本 为 12b。 可 以 从 https://developer. 
android.com/ndk/downloads/older releases.html#ndk-12b-downloads 下 载 该 版 本 。 

口 另外 ， 需 要 安装 Android SDK 及 其 编译 工具 ， 可 以 从 https://developer.android.com/studio/ 
releases/build-tools.html 获 取 。 也 可 以 将 其 作为 Android Studio ( https://developer.android. 
com/studio/index.html ) 的 一 部 分 使 用 。TF Android 演 示 程 序 的 编译 工具 要 求 API>=23 ( f 
然 运行 设备 只 需要 API>=21 )。 


























上 面 已 经 提 到 过 , 需要 修改 workspace ( 可 以 在 TensorFlow 的 根 目 录 中 找到 ) 文件 以 提供 关于 
SDK 和 NDK 的 信息 。 应 当 去 掉 下 述 代 码 前 的 注释 ， 并 升级 对 应 的 路 径 : 


# Uncomment and update the paths in these entries to build the Android demo. 
#android_sdk_repository ( 





name = "androidsdk", 

api_level = 23, 

# Ensure that you have the build_tools_version below installed in the 
# SDK manager as it updates periodically. 

build_tools_version = "25.0.2", 

# Replace with path to Android SDK on your system 

path = "<PATH_TO_SDK>", 


Android NDK r12b is recommended (higher may cause issues with Bazel) 
android, ndk repository( 

name-"androidndk", 

path="<PATH_TO_NDK>", 

# This needs to be 14 or higher to compile TensorFlow. 

# Note that the NDK version is not the API level. 

api_level=14) 


如 果 没 有 将 前 述 代码 前 的 注释 取消 ， 就 会 在 workspace 中 得 到 类 似 如 下 的 错误 报告 :“ 外 部 标 
签 //external: andqroid/sdk 未 绑 定 。” 


dE dk dE db dE dE db dE db dE db db dE db dE db 





另外 ， 需 要 在 workspace 文 件 中 编辑 SDK 的 API 等 级 ， 将 其 调 至 你 安装 的 SDK 中 的 最 高 等 级 。 
前 面 提 到 过 ， 该 等 级 必须 >=23 ，NDK 的 API 等 级 可 以 保持 在 14。 

然后 ， 需 要 从 workspace 的 根 目 录 中 运行 以 下 命令 ， 编 译 APK : 

bazel build -c opt //tensorflow/examples/android:tensorflow_demo 

TensorFlow 提 到 :“ 如 果 编 译 过 程 中 出 现 protocol buffer 错 误 , 请 运行 git submodule update 


--init 命 令 ， 并 确定 已 按照 说 明 修 改 了 workspace 文 件 ， 然 后 尝试 重新 编译 。” 


现在 可 以 安装 .apk 文 件 了 。 但 安装 前 请 确定 ， 已 经 在 你 的 Android 5.0 (API 21) 或 以 上 版 本 
设备 上 开启 了 adqpb 调 试 。 从 workspace 根 目录 运行 以 下 命令 ， 安 装 .apk 文 件 : 




















adb install -r bazel-bin/tensorflow/examples/android/tensorflow_demo.apk 


现在 ， 尽 情 享 受 在 Android 移 动 设 备 上 运行 TensorFlow 平 台 深度 学 习 算法 的 乐趣 吧 。 
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9.6 小 结 


现在 ， 你 已 经 了 解 了 TensorFlow 1.0 最 新 的 变更 特性 。 另 外 ， 还 学 习 了 图 像 和 视频 分 析 ， 并 
了 解 到 ， 将 TensorFlow 和 Keras 联 用 会 使 图 像 视频 分 析 更 加 简单 便捷 。 还 有 ， 我 们 学 到 了 如 何在 
Android 移 动 设备 上 运行 TensorFlow 支 持 的 深度 学 习 。 


下 一 章 将 介绍 强化 学 习 。 我 们 会 讲解 强化 学 习 的 几 个 基本 原则 及 算法 , 还 会 展示 几 个 相关 应 
用 示例 ， 其 中 使 用 了 TensorFlow 和 OpenAI Gym 框 架 。OpenAI Gym 框 架 是 开发 和 比较 强化 学 习 算 
法 的 一 个 强大 工具 。 


























强化 学 习 








强化 学 习 基 于 以 下 这 个 有 趣 的 心理 学 原理 : 


在 一 个 响应 发 生 后 立即 给 予 奖励 ， 能够 增加 该 响应 重新 发 生 的 概率 ; MAPE 
便 可 降低 这 一 概率 。( Thorndike，1911 ) 


执行 一 个 正确 的 行为 后 立即 给 予 奖励 , 可 以 增加 该 行为 被 重复 的 概率 ; 而 在 一 个 我 们 不 希望 
出 现 的 行为 发 生 后 对 其 进行 惩罚 ， 就 可 以 降低 出 错 的 概率 。 因 此 ， 只 要 建立 目标 ， 强 化 学 习 就 会 
通过 奖励 最 大 化 以 进行 实现 。 


























强化 学 习 在 许多 场景 下 都 有 应 用 ， 尤 其 是 在 监督 学 习 无 法 完成 任务 时 。 
下 面 是 强化 学 习 诸多 应 用 中 的 少数 几 种 : 











a 学 习 商 品 推荐 和 排序 ， 对 出 现 的 品目 进行 一 次 性 学 习 ， 新 的 用 户 就 会 带 来 更 多 消费 ; 
O 在 机 器 人 保持 原 有 知识 的 基础 上 教 给 它 新 任务 ; 

口 获取 复杂 的 体系 化 方案 ， 从 国际 象棋 开局 到 贸易 策略 ; 

口 路 线 规划 问题 ， 如 运输 船 队 的 管理 ， 即 哪些 货车 /货车 司机 分 配给 哪些 货船 。 









































当前 , 人们 普遍 追求 的 一 个 思想 是 , 设计 出 只 需要 任务 描述 而 不 需要 其 他 条 件 就 能 进行 学 习 
的 算法 。 如 果 这 一 目标 能 够 达成 ,那么 强化 学 习 将 会 应 用 于 生活 的 方方面面 。 本 章 将 概括 强化 学 
习 的 基本 概念 ， 并 讲解 Q-learning 算法 。 该 算法 是 强化 学 习 中 最 常用 的 算法 之 一 。 


本 章 结构 如 下 : 


口 强化 学 习 基 本 概念 

口 Q-learning 算法 

口 OpenAI Gym 框 架 简介 

口 FrozenLake-v0 实 现 

口 使 用 TensorFlow 实 现 Q-learning 
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10.1 强化 学 习 基 本 概念 


强化 学 习 的 目标 是 创建 可 学 习 的 系统 , 同时 根据 每 个 行为 发 出 后 得 到 的 奖励 , 适应 自身 周围 
环境 的 变化 。 


使 用 这 种 方法 处 理 信息 的 软件 系统 称 为 智能 体 。 
这 些 智 能 体 根据 以 下 条 件 判断 下 一 步 的 动作 : 


口 系统 状态 
O 使 用 的 学 习 算 法 


为 改变 系统 状态 且 最 大 化 长 期 奖励 ， 智 能 体会 持续 监控 环境 ， 选 择 最 优 动作 。 
为 获得 较 大 的 奖励 并 由 此 优化 强化 学 习 过 程 ， 智 能 体 必须 优先 选择 过 去 获得 较 大 奖励 的 动作 。 


智能 体 还 必须 探索 之 前 从 未 出 现 过 的 动作 。 因 此 , 智能 体 除 了 必须 利用 已 知 的 动作 ,还 需 探 
索 未 出 现 的 动作 ， 以 获得 最 大 奖励 ， 为 未 来 选择 最 优 动作 。 


为 实现 这 一 目标 ,智能 体 必须 尝试 多 种 动作 ,， 并 逐渐 选择 最 佳 的 动作 。 然 后 ， 智 能 体会 随机 
继续 尝试 ， 使 每 个 动作 都 被 尝试 多 次 ， 都 被 计算 出 可 靠 的 奖励 。 


下 面 介绍 强化 学 习 系 统 的 4 个 主要 子 元 素 。 


第 一 个 是 策略 , 定义 了 智能 体 在 特定 时 间 内 被 要 求 的 表现 方式 。 换 句 话 说 , 策略 是 环境 观 委 
到 的 状态 和 在 这 些 特定 状态 下 智能 体 需要 做 出 的 动作 之 间 的 映射 。 策略 是 强化 学 习 智能 体 的 术 
心 ， 因 为 它 决定 了 一 个 智能 体 需要 做 出 的 动作 。 


第 二 个 子 元 素 定义 了 强化 学 习 的 目标 。 该 元 素 为 奖励 函数 。 每 个 状态 根据 自身 对 应 的 奖励 被 
映射 ,代表 动作 在 该 状态 中 被 期 望 的 程度 。 正 如 前 面 所 说 ,强化 学 习 智 能 体 的 目标 是 , 最 大 化 长 
期 过 程 中 的 总 奖励 。 


第 三 个 子 元 素 是 值 函 数 。 该 函数 指定 了 长 期 过 程 中 的 需求 。 换 句 话 说 ,一 个 状态 的 值 表示 ， 
一 个 智能 体 从 该 状态 开始 到 未 来 会 积累 的 总 奖励 ,奖励 决定 的 是 当前 状态 这 一 瞬间 一 个 动作 的 期 
望 程度 ， 而 值 代表 的 是 状态 的 长 期 期 望 程度 ， 其 中 考虑 了 后 面 可 能 出 现 的 状态 及 其 对 应 奖励 。 值 
函数 的 具体 形式 取决 于 选择 的 策略 。 


在 学 习 过 程 中 , 智能 体会 尝试 可 以 生成 最 高 值 状态 的 动作 , 因为 这 些 动作 可 以 获得 长 期 最 大 
奖励 。 由 于 奖励 是 直接 从 环境 中 导出 的 , 所 以 值 必须 被 连续 计算 ， 并 在 智能 体 的 生命 周期 进行 长 
期 观察 。 


实际 上 ， 强 化 学 习 算 法 中 最 重要 的 部 分 是 有 效 估计 值 的 方法 。 
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最 后 一 个 主要 子 元 素 是 环境 〈 或 模型 ) 这 是 一 个 智能 体内 部 表示 ， 会 激励 环境 中 的 表现 。 
例如 ， 给 定 一 个 状态 和 一 个 动作 ， 模 型 就 会 预测 下 一 个 结果 状态 和 下 一 个 奖励 。 


图 10-1 总 结 了 强化 学 习 的 周期 。 





动作 























图 10-1 增强 学 习 周 共 


智能 体 从 环境 状态 获取 传 感 信息 。 基 于 这 些 信息 和 之 前 定义 的 策略 , 智能 体 在 环境 中 进行 动 
作 。 动作 会 产生 一 个 奖励 信号 。 和 特征 向 量 很 大 、 组 件 很 多 的 传 感 信 息 不 同 ,奖励 是 一 个 单一 实 
值 张 量 ， 即 一 个 数值 。 


另外 ， 执 行 的 动作 会 改变 环境 、 产 生 新 状态 ， 这 时 智能 体 就 可 以 做 出 新 的 动作 ， 如 此 循环 。 
学 习 的 目标 是 最 大 化 获得 的 奖励 。 这 并 不 是 最 大 化 某 一 瞬间 的 奖励 ， 而 是 长 时 间 的 积累 奖励 。 

































































10.2 Q-learning 算法 


在 学 习 阶段 ,解决 强化 学 习 问 题 要 生成 评价 函数 。 该 函数 必须 可 以 通过 奖励 的 和 以 及 策略 方 
便 地 计算 得 出 。Q-learning 的 基本 思想 是 ， 该 算法 在 状态 和 动作 的 完整 空间 (Sx 4) 上 学 习 出 最 优 评 
价 函数 。 

所 谓 的 Q 函 数 会 给 出 一 个 形 如 0: Sx 4 — p 的 匹配 ， 其 中 7 下 示 一 个 在 状态 s t s 中 执行 的 动 
作 a ? A 的 未 来 奖励 值 。 

学 习 到 最 优 函 数 o 后 ， 智 能 体 自然 就 可 以 识别 出 ， 何 种 动作 在 状态 s 中 可 以 得 到 最 高 未 来 
奖励。 

实现 Q-leaming 算 法 最 常用 的 一 个 例子 用 到 了 表 。 表 中 的 每 个 单元 格 为 一 个 值 ，o(sy a) =v, 
被 初始 化 为 0。 

智能 体 可 以 做 成 任何 动作 sa ? A， 此 处 2 为 智能 体 所 知 的 所 有 动作 集合 。 算 法 的 基本 思想 是 
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训练 规则 ， 用 来 升级 表 元 素 Q(s; a) 。 
算法 的 基本 步骤 如 下 : 


Initialize Q (s; a) arbitrarily 
Repeat (for each episode) 
Initialize s 
Repeat (for each step of episode): 
Choose an action a I A from s I S using policy 
derived from Q 
Take an action a, observe r, s' 
Q(s; a) - Q(s; a) - a.(r«g . max Q(s'; a) - Q(s; a) ) 
Su foster 
Until s is terminal 


Q 值 升级 过 程 中 使 用 的 参数 如 下 。 


口 a 为 学 习 率 ， 被 设置 为 0~1。 设置 为 0 意 为 Q 值 不 会 更 新 ， 因 此 不 会 学 习 任何 东西 。 奉 设置 
为 一 个 较 大 的 数 ， 如 0.9， 则 代表 学 习 速 率 会 很 快 。 

a go 为 折扣 参数 ， 值 的 范围 也 是 0~1。 该 参数 表示 的 是 当前 奖励 比 未 来 奖励 更 重要 。 在 数学 
上 ， 折 扣 参 数 需 要 被 设置 为 小 于 1， 算 法 才能 收敛 。 

O max 0(s'; a) 为 当前 状态 的 下 一 个 状态 下 可 能 获得 的 最 大 奖励 ， 换 言 之 ,使 用 当前 最 优 
动作 后 获得 的 奖励 。 


为 便于 理解 ， 图 10-2 夯 出 算法 流程 。 
































初始 化 Q 





为 Q 选 择 动作 
执行 动作 
计算 奖励 
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10.3 ”OpenAl Gym 框架 简介 


为 实现 Q-learning 算法 ,我 们 使 用 OpenAI Gym 框 架 。 该 框架 兼容 TensorFlow 工 具 包 ， 用 于 开 
发 和 比较 强化 学 习 算 法 。 


OpenAI Gym 包 含 以 下 两 个 主要 部 分 。 
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口 Gym 开 源 库 : 一 个 问题 和 环境 集合 ， 可 以 用 于 测试 强化 学 习 算 法 。 所 有 这 些 环境 共享 同 
一 个 接口 ， 允 许 编写 强化 学 习 算法 。 
口 OpenAI Gym 服 务 : 一 个 站 点 , 同时 也 是 一 个 API, 允许 有 效 对 比 训练 出 的 智能 体 的 性 能 。 




















qp 更 多 资料 请 见 https://gym.openai.com。 
首先 ， 需 要 在 机 器 中 安装 Python 2.7 或 Python 3.5。 若 要 安装 Gym， 则 使 用 pip 安 装 器 执行 以 
下 命令 : 
sudo pip install gym 


安装 完成 后 ， 可 以 使 用 以 下 语句 列 出 Gym 的 环境 : 





>>>from gym import envs 
>>>print (envs.registry.all()) 


输出 的 列表 非常 长 ， 以 下 是 其 中 一 个 片段 : 


[EnvSpec (PredictActionsCartpole-v0), 
EnvSpec (AsteroidsramDeterministic-v0), 
EnvSpec (Asteroids-ramDeterministic-v3), 
EnvSpec (Gopher-ramDeterministic-v3), 
EnvSpec (Gopher-ramDeterministic-v0), 
EnvSpec (DoubleDunk-ramDeterministic-v3), 
EnvSpec (DoubleDunk-ramDeterministic-v0), 

( 

( 

( 

( 

( 

















EnvSpec(Carnival-v0), 

EnvSpec(FrozenLake-v0),...., 

EnvSpec (SpaceInvaders-ram-v3), 

EnvSpec(CarRacing-v0), EnvSpec(SpaceInvaders-ram-v0), ....., 
EnvSpec (Kangaroo-v0)] 


tj Envspectilig X. f -SFREE . Dia, FAH FrozenLake-vOBU m. HAE 
体 控制 每 个 字符 在 4 x 4 网 格 范围 中 的 移动 ( 见 图 10-3 )。 网 格 中 的 有 些 块 是 可 以 移动 到 的 ， 而 移 
动 到 其 他 的 块 上 就 相当 于 智能 体 掉 进 了 水 里 。 另 外 ,智能 体 的 移动 方向 是 不 定 的 ,并 不 完全 取决 
于 选 定 的 方向 。 智 能 体 的 任务 是 要 寻找 一 个 到 目标 块 的 可 行路 径 。 












































SFFF 
FAFH 
FFFH 


HFFG 
(Down) 

















图 10-3 ”FrozenLake-v0 网 格 的 一 个 表示 
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前 述 游戏 空间 的 表面 材质 使 用 一 个 网 格 描述 ， 如 下 : 





SFFF (S: 起 点 ， 安 全 ) 
FHFH (F: 冰 面 ， 安全) 
FFFH (H: 坑 ,会 掉 落 ) 
HFFG (G: 终点 ， 飞 盘 的 坐落 点 ) 


若 我 们 达到 终点 或 掉 进 坑 里 ， 游 戏 便 结 束 了 。 如 果 达 到 终点 ， 就 会 收 到 奖励 ; 其 他 情况 会 
得 0 分 。 





10.4 FrozenLake-vO 实现 问题 


下 面 使 用 Q-learning 算 法 解决 FrozenLake-v0 问 题 。 
首先 导入 基本 库 : 





import gym 
import numpyasnp 


然后 载 人 FrozenLake-v0 环 境 : 





environment = gym.make('FrozenLake-v0') 


之 后 构建 Q-learning 表格 。 该 表格 的 维度 为 $x 4， 其 中 s 为 观察 空间 s 的 维度 ，A 为 动作 空间 A 
的 维度 : 





S = environment.observation_space.n 
A = 

FrozenLake 环 境 为 每 个 块 提 供 了 一 个 状态 和 4 个 动作 ( 即 4 个 移动 方向 )。 因 此，Q 值 将 初始 化 
为 一 个 16 x 4 的 表格 : 


environment.action space.n 


Q = np.zeros([S,A]) 
接着 ， 为 训练 规则 定义 参数 a 和 折扣 因子 g: 


alpha = .85 
gamma = .99 


确定 最 大 片段 (轨迹 ) X. 

num_episodes = 2000 

然后 初始 化 rList， 用 它 存放 积累 奖励 ， 以 评估 算法 的 分 数 : 
rList = [] 


最 后 ， 启 动 Q-learning 训 练 循环 : 











for i in range(num_episodes): 
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初始 化 环境 以 及 其 他 参数 : 


S = environment.reset() 
cumulative reward = 0 
d = False 
j = 0 
while j < 99: 
j+=1 


从 空间 A 随机 选取 一 个 动作 : 
a = np.argmax(Q[s,:] + np.random.randn (1,A)*(1./(i+1))) 


F 价 动作 a， 用 以 获取 奖励 和 状态 s1: 


N 





J 








使 用 函数 snvironment .step () 


sl,reward,d,_ = env.step(a) 


使 用 训练 规则 更 新 o (s; a) 表格 : 





O[s,a] = O[s,a] + alpha* (reward + gamma*np.max(Q[s1,:]) - O[s,al) 
cumulative_reward += reward 


设置 下 一 个 学 习 循 环 的 状态 : 





break 
rList.append(cumulative_reward) 


打印 随时 间 推 移 获 得 的 分 数 ， 以 及 得 到 的 Q 表 格 结果 : 





print "Score over time: " + str(sum(rList) /num_episodes) 
print "Final Q-TableValues" 
print Q 


如 图 10-4 所 示 ， 在 100 个 连续 轨迹 后 ， 平 均 奖 励 约 为 0.54。 


[2017-03-23 12:22:49,913] Making new env: FrozenLake-vo 
over time: 0.3585 

Q-Table Values 
-90034838e-03 
.14009765e-04 
-42003179e-03 
-60332674e-03 
.38172447e-01 
-00000000e+00 
-78445198e-01 
-00000000e+00 
-85462465e-05 
-15488045e-03 
.99666157e-01 
-00000000e+00 
-00000000e+00 
.20525081e-04 
-00000000e+00 
-90000000e+00 


.23733520e-02 
-34354386e-03 
-53712381e-03 
-60331077e-04 
-23434831e-03 
-0©0000000e+00 
-27421388e-04 
-00000000e+00 
-52400799e-03 
.66874039e-02 
.87928455e-04 
-00000000e+00 
-00000000e+00 
-00000000e+00 
-00000000e+00 
-00000000e+00 


图 10-4 “连续 轨迹 的 平均 奖励 结果 


-04857351e-01 
-39327124e-03 
-27103632e-03 
-50987843e-04 
-35672865e-03 
-00000000e+00 
-70432817e-05 
-00000000e+00 
.22678642e-05 
-00000000e+00 
.11361272e-04 
-00000000e+00 
-00000000e+00 
-20956992e-01 
-91561828e-01 
-00000000e+00 


.18572787e-02] 
.88345699e-01] 
.36417875e-01] 
.96388199e-01] 
.99709408e-05] 
.00000000e+00] 
.55201005e-12] 
.00000000e+00] 
.00741687e-01] 
.21513681e-04] 
.11179559e-04] 
.00000000e+00] 
.00000000e+00] 
.00000000e+00] 
.00000000e+00] 
.00000000e+00] ] 
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从 技术 上 来 说 ， 我 们 并 未 解决 这 一 问题 。 实际 上 ， FrozenLake-v0 定 义 的 “解决 ” 指 的 是 ， 





100 个 连续 轨迹 后 获得 0.78 以 上 的 奖励 。 可 以 通过 参数 调 优 改 善 这 一 结 


FrozenLake-v0 问题 源 代码 
下 面 是 用 Q-learning 算法 解决 Froz enLake-v0 问 题 的 源 代码 : 





import gym 
import numpy as np 


env = gym.make('FrozenLake-v0') 


#Initialize table with all zeros 

Q = np.zeros([env.observation space.n,env.action space.n]) 
# Set learning parameters 

[5 5:595 

gamma - .99 

num episodes - 2000 


#create lists to contain total rewards and steps per episode 
rList = [] 

for i in range (num episodes): 

#Reset environment and get first new observation 


S = env.reset() 
rAll = 0 

d = False 

了 SO 


#The Q-Table learning algorithm 
while j < 99: 
j+=1 














， 但 此 处 不 





POOR 








#Choose an action by greedily (with noise) picking from Q table 


a=np.argmax(Q[s,:]+ \ 


np.random.randn(1,env.action_space.n)*(1./(i+1))) 


#Get new state and reward from environment 
sl,r,d,_ = env.step(a) 


#Update Q-Table with new knowledge 


O[s,a] = O[s,a] + lr*(r + gamma *np.max(Q[sl,:]) - Q[s,a]) 
rAll += r 
8 sS] 
if d == True: 
break 


rList.append(rA11) 


print ("Score over time: "+ str(sum(rList) /num_episodes) ) 
print ("Final Q-Table Values") 
print (Q) 
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10.5 ”使 用 TensorFlow 实现 Q-learning 


可 以 看 到 ， 前 面 的 例子 实际 上 相对 简单 : 使 用 16 x 4 的 网 格 在 学 习 过 程 中 一 步 一 步 地 升级 Q 
表格 。 很 容易 想到 ， 这 种 表格 只 适用 于 简单 问题 。 对 于 真实 世界 的 问题 ,我 们 需要 更 高 级 、 更 复 





杂 的 机 制 去 升级 系统 状态 , 此 时 就 需要 发 挥 深度 学 习 的 作用 了 。 从 高 度 结构 化 的 数据 中 提取 特征 














时 ， 神 经 网 络 的 表现 尤为 优秀 。 
最 后 这 一 节 将 学 习 如 何 使 用 神经 网 络 管理 Q 函 数 ， 将 状态 和 动作 作为 输入 ， 对 应 的 Q 值 作为 


输出 。 




















为 实现 这 一 想法 ,需要 构建 一 个 单 层 神经 网 络 。 网 络 的 输入 为 一 个 状态 , 被 编码 为 一 个 [1x161 
向 量 ， 用 于 学 习 最 优 移动 ( 动作 )， 并 将 可 能 的 动作 映射 到 一 个 长 度 为 4 的 向 量 中 。 


0 


深度 Q 网 络 的 一 个 最 新 实现 已 经 可 以 以 人 类 专家 的 水 平 玩 一 些 Atari 2006 游 戏 了 。 
初步 结果 发 布 于 2014 年 ， 相 应 论文 于 2015 年 2 月 在 《自然 》 杂 志 上 发 表 。 


接 下 来 介绍 基于 TensorFlow 实 现 的 、 用 于 解决 ErozenLake-v0 问 题 的 Q-learning 神 经 网 络 。 


首先 导入 所 有 需要 的 库 : 


import 
import 
import 
import 
import 


© 
0 





gym 

numpy as np 

random 

tensorflow as tf 
matplotlib.pyplot as plt 


若 要 安装 matplotlib ， 你 需要 在 终端 执行 以 下 命令 : 
$ apt-cache search python3-matplotlib 


如 果 此 包 存 在 ， 执 行 以 下 命令 安装 : 


$ sudo apt-get install python3-matplotlib 


载 和 并 设置 测试 用 的 环境 : 


env = gym.make('FrozenLake-v0') 
输入 网 络 为 一 个 状态 ， 被 编码 为 一 个 形状 为 [1，16] 的 张 量 。 据 此 定义 inputsi 占 位 符 : 
inputsl = tf.placeholder (shape=[1,16],dtype=tf.float32) 


网 络 权 重 的 初 值 由 tf .random_uniform 国 数 随 机 选取 


W = tf.Variable(tf.random uniform([16,4],0,0.01)) 
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网 络 输出 由 inputsl 占 位 符 和 权重 相 乘 得 到 

Qout = tf.matmul(inputsl,W) 

由 Qout 评 价 的 argmax 参 数 给 出 预测 值 : 

predict = tf.argmax(Qout,1) 

最 优 移动 (Qtarget ) 被 编码 为 一 个 形状 为 [1，4] 的 张 量 : 

Qtarget = tf.placeholder (shape=[1,4] ,dtype=t f. float32) 

接 下 来 ， 需要 定义 一 个 损失 函数 loss， 用 来 优化 反 向 传播 过 程 。1oss 函 数 形式 如 下 : 
loss =} (Q - target — Q) 

此 处 计算 了 当前 预测 的 Q 值 和 目标 之 间 的 差 值 ， 且 在 网 络 中 传播 梯度 


loss = tf.reduce sum(tf.square(Qtarget- Qout) ) 


至 于 优化 函数 ， 选 用 著名 的 cradientDescentOoptimizer: 


























trainer = tf.train.GradientDescentOptimizer (learning_rate=0.1) 
updateModel = trainer.minimize(loss) 


重新 设置 并 初始 化 计算 图 : 


tf.reset default graph() 
init - tf.global variables initializer() 


紧 接 着 ， 为 Q-learning 训 练 过 程 设 置 参数 : 


gamma = .99 
e = 0.1 
num_episodes = 6000 








jList = [] 
rList = [] 


运行 会 话 ， 在 会 话 中 ， 网 络 将 学 习 最 优 移动 序列 : 


with tf.Session() as sess: 
sess.run(init) 
for i in range(num episodes): 


S = env.reset() 
rAll = 0 

d = False 

j = 0 


while j < 99: 
j+=1 


输入 状态 被 用 来 馈 给 网 络 : 
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a,allQ = sess.run([predict,Qout],\ 
feed_dict=\ 
{inputsl:np.identity (16) [s:s+1]}) 


从 输出 张 量 a 中 随机 选择 一 个 状态 : 


if np.random.rand(1) < e: 
a[0] = env.action space.sample() 


使 用 函数 snv. step () 评 价 动作 a[0]， 得 到 奖励 r 和 状态 s1: 
sl,r,d,_ = env.step(a[0]) 
新 状态 s1 被 用 来 更 新 Q 张 量 : 


Q1 = sess.run(Qout, feed_dict=\ 
{inputsl:np.identity(16) [sl:s1+1]}) 

maxQ1 = np.max (Q1) 

targetQ = allQ 

targetQ[0,a[0]] = r + y*maxQ1 


当然 ， 在 反 向 传播 的 过 程 中 必须 升级 权重 : 


_,W1 = sess.run([updateModel,W],N 
feed_dict=\ 
{inputsl:np.identity (16) [s:s+1],nextQ:targetQ}) 


此 处 的 参数 ral1 定 义 了 会 话 中 奖励 的 总 增 量 值 。 回 忆 一 下 强化 学 习 智 能 
化 长 期 获取 的 总 奖励 : 


rAll += r 


更 新 下 一 步 的 环境 状态 : 











最 大 





s = sl 

if d == True: 
e = 1./((i/50) + 10) 
break 


List.append(j) 
List.append(rAll) 


计算 结束 后 ， 输 出 成 功 片段 的 百分比 : 


print "Percent of succesfulepisodes: " +\ 
str(sum(rList)/num episodes) + "%" 


运行 该 模型 ， 你 应 该 得 到 与 下 面 类 似 的 输出 。 该 结果 可 以 通过 参数 调 优 进行 改善 


Che 





H 





>>> 
[2017-03-23 12:36:19,986] Making new env: FrozenLake-v0 
Percent of successful episodes: 0.558% 

>>> 
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Q-learning 神经 网 络 源 代码 
下 面 是 前 述 例 子 的 完整 代码 : 





import gym 

import numpy as np 

import random 

import tensorflow as tf 

import matplotlib.pyplot as plt 


#Define the FrozenLake enviroment 
env = gym.make('FrozenLake-v0') 


#Setup the TensorFlow placeholders and variabiles 
tf.reset default graph() 

inputsl = tf.placeholder(shape-[1,16],dtype-tf.float32) 
W = tf.Variable(tf.random uniform([16,4],0,0.01)) 

Qout = tf.matmul(inputs1,W) 

predict = tf.argmax(Qout,1) 

nextQ = tf.placeholder(shape-[1,4],dtype-tf.float32) 


#define the loss and optimization functions 

loss = tf.reduce_sum(tf.square(nextQ - Qout) ) 

trainer = tf.train.GradientDescentOptimizer(learning rate-0.1) 
updateModel = trainer.minimize(loss) 


#initilize the vabiables 
init = tf.global variables initializer() 


#prepare the q-learning parameters 


gamma - .99 

e = 0.1 
num_episodes = 6000 
jList = [] 

rList = [] 


#Run the session 
with tf.Session() as sess: 
sess.run(init) 
#Start the Q-learning procedure 
for i in range(num episodes): 
S - env.reset() 
rAll = 0 
d = False 
jm 
while j « 99: 
j+=1 
a,allQ = sess.run([predict,Qout],\ 
feed_dict=\ 
{inputsl:np.identity (16) [s:s+1]} 


if np.random.rand(1) « e: 
a[0] = env.action space.sample() 
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sl,r,d,_ = env.step(a[0]) 

Q1 = sess.run(Qout, feed_dict=\ 
{inputsl:np.identity (16) [s1:s1+1]}) 

maxQ1 = np.max (Q1) 

targetQ = allQ 

targetQ[0,a[0]] = r + gamma *maxQ1 

_,W1 = sess.run([updateModel,W],\ 

feed_dict=\ 
{inputsl:np.identity (16) [s:s+1],nextQ:targetQ}) 
#cumulate the total reward 


rAll += r 

S = sl 

Lf 8. ee True: 
e = 1./((i/50) + 10) 
break 


jList.append(j) 
rList.append(rAl11) 
#print the results 
print ("Percent of succesful episodes: " + str(sum(rList)/num episodes) + "%") 





10.6 小结 
本 章 讲 解 了 强化 学 习 以 及 Q-learning 算法 的 基本 概念 。 


Q-learning 的 一 个 显著 特征 是 ， 它 有 能 力 在 当前 奖励 和 延迟 奖励 之 间 做 出 选择 。 最 简单 的 
Q-learning 算法 使 用 表 来 存储 数据 , 但 需要 监控 /控制 的 系统 的 状态 /动作 空间 增加 时 ,这 种 简单 形 
式 就 很 快 失去 了 可 行 性 。 

为 解决 这 一 问题 ,可 以 使 用 神经 网 络 作 为 函数 近似 。 这 种 方法 将 状态 和 动作 作为 输入 ,其 对 
应 的 Q 值 作为 输出 。 


基于 这 一 想法 , 我 们 使 用 TensorFlow 框 架 , 以 及 用 于 强化 学 习 算 法 开发 和 比较 的 OpenAIGym 
工具 包 ， 实 现 了 Q-learning 神 经 网 络 。 


到 这 里 ， 我 们 的 TensorFlow 深 度 学 习 之 旅 便 结束 了 。 
深度 学 习 是 一 个 非常 有 活力 的 研究 领域 , 许多 图 书 、 课 程 和 在 线 资源 都 可 以 帮助 你 深入 了 解 
其 原理 及 编程 应 用 。 男 外 ，TensorFlow 提 供 了 丰富 的 工具 ， 用 以 研究 深度 学 习 模 型 等 。 


我 们 囊 心 希望 你 可 以 成 为 TensorFlow 社 区 的 一 员 。TensorFlow 社 区 非常 活跃 ， 期 待 着 你 的 热 
情 加 入 ! 
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